Académique Documents
Professionnel Documents
Culture Documents
1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
SOMMAIRE GENERAL
SOMMAIRE DETAILLE
Page
1 - INTRODUCTION .............................................................................................................................................................11
22.2 - UTILISATION........................................................................................................................................................171
22.3 - FONCTIONNEMENT ............................................................................................................................................172
22.3.1 - CONSTRUIRE LE TABLEAU DES COOCCURRENCES ...............................................................................................172
22.3.2 - LIRE ET INTERPRÉTER LE TABLEAU ....................................................................................................................173
22.4 - LES REGLES..........................................................................................................................................................173
22.4.1 - GÉNÉRER DES RÈGLES ......................................................................................................................................173
22.4.2 - TYPOLOGIE DES RÈGLES ....................................................................................................................................175
22.4.2.1 - La règle utile ..............................................................................................................................................................175
22.4.2.2 - La règle triviale ..........................................................................................................................................................175
22.4.2.3 - La règle inexplicable..................................................................................................................................................175
22.5 - METTRE EN ŒUVRE LA TECHNIQUE .............................................................................................................176
22.5.1 - LA TAXINOMIE..............................................................................................................................................176
22.5.2 - LES ARTICLES VIRTUELS ............................................................................................................................176
22.5.3 - LES REGLES DE DISSOCIATION.................................................................................................................176
22.5.4 - LES SERIES TEMPORELLES ........................................................................................................................177
22.6 - EVALUER LES RESULTATS...............................................................................................................................177
22.6.1 - LA FRÉQUENCE .................................................................................................................................................177
22.6.2 - LE NIVEAU (OU TAUX) DE CONFIANCE ...............................................................................................................177
22.6.3 - LE NIVEAU DE SUPPORT ............................................................................................................................178
22.6.4 - LE TAUX D'AMÉLIORATION.................................................................................................................................178
22.7 - LES POINTS FORTS .............................................................................................................................................178
22.8 - LES POINTS FAIBLES..........................................................................................................................................179
22.9 - QUAND L'UTILISER ? ..........................................................................................................................................179
22.10 - SYNTHESE ..........................................................................................................................................................179
23 - LE RAISONNEMENT BASE SUR LA MEMOIRE..................................................................................................180
23.1 - PRESENTATION ...................................................................................................................................................180
23.2 - UTILISATION........................................................................................................................................................180
23.3 - FONCTIONNEMENT ............................................................................................................................................181
23.4 - METTRE EN ŒUVRE LE RBM ...........................................................................................................................183
23.4.1 - LA FONCTION DE DISTANCE .....................................................................................................................183
23.4.2 - LA FONCTION DE COMBINAISON .............................................................................................................185
23.5 - EXEMPLE ..............................................................................................................................................................185
23.6 - LES POINTS FORTS DU RBM.............................................................................................................................187
23.7 - LES POINTS FAIBLES DU RBM .........................................................................................................................187
23.8 - SYNTHESE ............................................................................................................................................................187
24 - LA DETECTION AUTOMATIQUE DE CLUSTERS...............................................................................................188
24.1 - PRESENTATION ...................................................................................................................................................188
24.2 - UTILISATION........................................................................................................................................................188
24.3 - FONCTIONNEMENT ............................................................................................................................................188
24.3.1 - METHODE DES K-MOYENNES....................................................................................................................188
24.3.2 - METHODE PAR AGGLOMERATION ...........................................................................................................189
24.4 - MISE EN ŒUVRE..................................................................................................................................................189
24.5 - EXEMPLES ............................................................................................................................................................189
24.5.1 - METHODE DES K-MOYENNES....................................................................................................................189
24.5.2 - METHODE PAR AGGLOMERATION ...........................................................................................................191
24.6 - EVALUER ..............................................................................................................................................................194
24.7 - LES POINTS FORTS .............................................................................................................................................194
24.8 - LES POINTS FAIBLES..........................................................................................................................................194
24.9 - SYNTHESE ............................................................................................................................................................194
25 - LES ALGORITHMES GENETIQUES .......................................................................................................................195
25.1 - PRESENTATION ...................................................................................................................................................195
25.2 - UTILISATION........................................................................................................................................................195
25.3 - FONCTIONNEMENT ............................................................................................................................................195
25.3.1 - NOTIONS DE GENETIQUE ..........................................................................................................................195
25.3.2 - LES ALGORITHMES GENETIQUES.............................................................................................................196
25.4 - MISE EN ŒUVRE DES ALGORITHMES GENETIQUES ..................................................................................196
25.4.1 - PREPARATION DES DONNEES ...................................................................................................................196
25.4.2 - FONCTION D'EVALUATION ........................................................................................................................196
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 7
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
36 - INDEX ............................................................................................................................................................................251
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 9
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
37 - TABLES .........................................................................................................................................................................254
37.1 - TABLE DES FIGURES..........................................................................................................................................254
37.2 - TABLE DES GRAPHIQUES .................................................................................................................................255
37.3 - TABLES DES TABLEAUX...................................................................................................................................255
38 - BIBLIOGRAPHIE ........................................................................................................................................................257
1 - INTRODUCTION
"L'information au bout des doigts"; un slogan publicitaire apparu au début des années 1990
qui reflétait bien le fait que les entreprises commençaient de plus en plus à s’intéresser à
l’informatique décisionnelle.
Les requêteurs leur permettent en toute autonomie un accès à l'information en libre service
sans se soucier des chemins d'accès à celle-ci. Ils veulent également analyser les données
mises à leur disposition et visualiser les informations (les indicateurs) par rapport à
différents axes d’analyse ce qui nécessite de s'appuyer sur une information pré-packagée et
fortement structurée. Les outils OLAP (On Line Analytical Processing) répondent à ces
besoins. Les outils de Data Mining vont plus loin et permettent aux utilisateurs "métier"
d'extraire de la connaissances de ses données grâce des mécanismes d'induction.
2 - LA PROBLEMATIQUE DE L'ENTREPRISE
2.1 - INTRODUCTION
« La Problématique de l’Entreprise », ce titre amène naturellement à définir la position de
l’entreprise par rapport au sujet « le Datawarehouse, le Datamining » et définir en quoi
celle-ci est concernée. Plus précisément, montrer comment ces techniques d’informatique
décisionnelle sont une réponse au problème de prise de décision de l’organisation au vu de
son contexte, de ses contraintes, de ses objectifs poursuivis sur les plans sécurité,
développement et rentabilité.
2.1.1 - L’ENTREPRISE
Dans un souci d’exhaustivité, nous nous appuyons sur le schéma des secteurs institutionnels
ci-dessous.
Sociétés et
Ménages
quasi-
Institutions
Financières
Sociétés
d'Assurance
Administratio
n Publique
Administratio
n Privée
Marché
Nous désignons donc sous le terme « Entreprise » toute organisation humaine devant gérer
sa raison d’être et/ou sa pérennité au travers des objectifs cités ci-dessus (sécurité,
développement, rentabilité). Par voie de conséquence, cette organisation humaine est dotée
d’un centre de décision.
La figure « Les secteurs institutionnels » illustre les relations de marché ou les relations
concurrentielles et les relations non concurrentielles de la part des administrations.
Objectif de
Contrainte
Développement
Société Gagner x% de part de Taux de rémunération du => Recherche de Solution
Marché capital de y% fixé par les
actionnaires
Administration Répondre à l'augmentation Travailler à Budget => Recherche de Solution
(Secteur Hospitalier de la demande Constant
Français )
Association à but Augmenter la qualité d'un Résultat de l'exercice = 0 => Recherche de Solution
non lucratif service
2.1.2 - LE DECIDEUR
Nous adoptons cette échelle des niveaux de préoccupation pour définir le contexte général
de la prise de décision dans l’entreprise et nous disons que l’espace des décisions du
décideur est structuré par les niveaux de ses préoccupations.
2.1.4 - RESUME
L’espace des décisions du décideur est structuré par les niveaux de ses
préoccupations.
Cette partie s’est largement inspirée de l’ouvrage de Pierre Lévine et Jean Charles Pomerol ,
1990, Systèmes interactifs d’aide à la décision et systèmes experts, Editions Hermès. Ces
auteurs s’appuient sur les travaux de H.A. Simon et de Newell aux USA et de Le Moigne
qui a popularisé ces travaux en France. Nous ferons référence de temps à autre à ces
auteurs. Toutefois, l’objectif n’est pas de redire une théorie de la décision, mais de présenter
les concepts utiles à la compréhension et à la construction du système décisionnel de
l’organisation.
2.2.1.1 - LE PROBLEME
Le mot « problème » est pris dans une acception très générale. Nous disons qu’un sujet est
confronté à un « problème » dès qu'il doit produire une action non réflexe sur son
environnement. Exemple :
Remarques :
A ce niveau d’exposé, nous ne disons rien sur l’état amont à la résolution du problème.
S0
S2 S1
S3
S4
St
Aussi, pour Simon et Newell, la résolution du problème passe par la définition d’un espace
de résolution. Cet espace de résolution contient :
En s’appuyant sur le même exemple, pour passer d'une pierre à l'autre, je saute.
De S0, je peux atteindre certaines pierres et pas d'autres, ainsi à chaque état Si j'associe les
états Sij que je peux atteindre à partir de Si. Pour le passage de Si à Sj1, j'utilise un
opérateur (de saut, en l'occurrence).
Mais je peux me tromper et arriver sur une pierre à partir de laquelle mes forces
m'interdisent d'atteindre la suivante. Je reviens alors en arrière et j'essaye un autre chemin
(stratégie d'exploration avec retour arrière ou backtracking strategy).
Chaque opérateur me fait passer d'un état à un autre qui me rapproche, en principe, de St.
2.2.1.3.4 - l’Heuristique.
2.2.1.3.5 - En résumé
Les états, les opérateurs permettant de passer d'un état à un autre et les
informations dont on peut disposer à chaque état, forment une représentation
implicite du problème.
L’introduction de ce contexte général s’inscrit dans des recherches sur les liens entre la
théorie de l’information, la théorie de la gestion des organisations, la théorie de la décision
et de la gestion.
1
« Paradigme », du grec « paradigma », signifie « modèle »; Le mot paradigme sera pris au sens de T.S.Kuhn ( rôle des
paradigmes dans l’histoire des sciences ), c’est à dire, il représente l’ensemble des contingences environnementales dans
lequel évolue le système.
2
On trouvera dans Demailly et Le Moigne (1986) de nombreux éclairages sur la génèse du paradigme, en particulier un
article historique de Simon (1986 a).
Postulat 1 :
« Il est possible de construire une théorie de l'esprit au niveau du traitement de
l'information. Théorie où les processus informationnels en sont les fondements
premiers »
Postulat 2 :
« L'étude des processus décisionnels est possible à un niveau d'agrégation qui
est celui du traitement de l’information. c'est-à-dire celui de la manipulation
des signes ».
Postulat 3 :
« Pour décrire le processus du traitement de l’information dans un STI, il est
posé, en attendant la preuve du contraire, que le cerveau est l’archétype3 des
STI. ».
Remarque : Ce dernier postulat est le corollaire du postulat posé par Simon : « Pour
résoudre des problèmes avec des machines, faisons comme les gens font ».
Emetteurs /
Mémoires Processeurs
Récepteurs
Environnement
3
« Archétype », du grec « arkhetupon », signifie modèle original ( premier) ou modèle idéal sur lequel est fait un ouvrage ou
une oeuvre.
Une partie de cette information est stockée dans la mémoire. ( les processus physiologiques
et l’organisation plus ou moins connus opérant le stockage en mémoire ne nous intéressent
pas à ce niveau de considération.).
Les stimuli reçus et transmis au cerveau, ainsi que les informations mémorisées, sont
ensuite traités pour produire des réponses nerveuses qui actionnent nos muscles.
Le STI manipule (traite) des signes qui sont des formes (un ensemble de spécifications
physiques) reconnaissables et reproductibles.
Ces signes, comme les impulsions électriques (ou ioniques) transmises dans les neurones,
n'ont pas de sens intrinsèque, c'est l'observateur ou le sujet qui donne la signification aux
signes, les transformant alors en symboles.
2.2.2.6 - EN RESUME
Nous représentons par le schéma ci-dessous la définition du STI de Simon. Nous prenons ce
schéma comme base de la structure décisionnelle de l’organisation.
Niveau des
Représentations
Environnement
Mentales de l'Organisation
Machine Décideur
Mémoires / Processeurs Compétences
Intellectuelles /
Environnement
Intérieur et Extérieur de l'Organisation
La représentation mentale que nous nous faisons de l’environnement est alimentée par :
Niveau des
Représentations
Environnement
Mentales de l'Organisation
Niveaux de
Préoccupations
Machine Décideur 1 Philosophie
Mémoires / Processeurs Compétences 2 Culture
Intellectuelles /
3 Politique
4 Stratégique
Environnement 5 Tactique
Intérieur et Extérieur de l'Organisation 6 Logistique
7 Tâche
La représentation mentale est évaluée au travers des valeurs des composantes sélectionnées
dans le modèle ou au travers du résultat d’une fonction d’évaluation intégrée dans le
modèle. L’élément déclencheur ou Evénement déclencheur d’un problème à résoudre sera
la perception d’une variation de valeurs entre 2 évaluations successives de la représentation.
De plus, la variation entre 2 évaluations sera rapproché d’un seuil. Ce seuil déterminera le
déclenchement ou non d’une action de résolution de problème.
Exemple :
De même, on pourrait dire qu’une variation de l’état des préoccupations peut déclencher un
processus de résolution de problème.
Exemple :
Vouloir passer de la 3ème place à la position de leader sur son marché. Cette
volonté va entraîner une étude de faisabilité, avec différents scénarios
possibles, il y aura choix et éventuellement une critique ultérieure de la
décision. Cette volonté va entraîner la création d’un espace de résolution.
Vérifier une hypothèse.
etc....
Repérer les variations du modèle de la représentation mentale sous-entend faire appel à une
norme préétablie auprès de la quelle il est possible de définir des seuils au-delà desquels une
action doit être entreprise.
Nous intégrons maintenant le projet dans le schéma décisionnel. C’est lui le référentiel
du modèle de la représentation mentale de l’environnement.
Représentations
Environnement Espace de Résolution
Mentales de l'Organisation de Problèmes
Niveaux de
Préoccupations
Machine Décideur 1 Philosophie
Mémoires / Processeurs Compétences 2 Culture
Intellectuelles /
3 Politique
4 Stratégique
Environnement 5 Tactique
Intérieur et Extérieur de l'Organisation 6 Logistique
7 Tâche
2.2.3.6 - EN RESUME
Niveau Conceptuel :
les Représentations
du Projet,
du modèle de la position de l’organisation dans l’environnement,
de l'espace de résolution de problème
des Niveaux de Préoccupations
Niveau Physique :
L’Homme,
La Machine
l’Environnement.
2.2.4 - LA DECISION
Soit l’axiome suivant : entre les deux issues mutuellement exclusives d'une alternative,
l'individu X qui choisit une issue à la suite d'un processus mental, appelé réflexion, aurait pu
tout aussi bien choisir l'autre.
l'information ou le renseignement
la conception
Dans un deuxième temps, le décideur construit des solutions, imagine des
scénarios, ce qui peut l'amener à rechercher de l'information supplémentaire.
le choix
Ensuite, le décideur choisit entre les différentes actions qu'il a été capable de
construire et d'identifier pendant la phase de conception.
Remarques : Les étapes décrites par Simon ne se déroulent pas forcément suivant un
processus purement séquentiel, il peut y avoir des retours en arrière. Assez
fréquemment l'information et la conception contiennent déjà le choix dans la mesure
où le décideur privilégie assez vite une seule action parmi celles possibles. Celle-ci
est ensuite la seule documentée et construite.
Simon indique que les décisions dans les entreprises se répartissent sur toute la longueur
d'une échelle qui va du moins normalisé au plus normalisé. A cette échelle de normalisation
de Simon, nous faisons correspondre l’échelle des préoccupations du Manager ou du
Décideur. Nous faisons correspondre aussi, pour chaque niveau de préoccupation, une
période indicative pour laquelle il existe une probabilité non nulle d’apparition de problème
entraînant une prise de décision. Ces périodes, indiquées sur la figure ci-dessous sont
données pour fixer un ordre de grandeur. Les rapports entre les ordres de grandeurs
caractériseraient davantage la probabilité d’apparition d’une décision quand on passe d’un
niveau de préoccupation au niveau voisin.
3 Politique
5 Tactique
4
A Décision bien normalisée et peu normalisée correspondent en anglais les expressions « Programmed decision » et « Non-
Programmed decision ». Cf Levine et Pommerol
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 30
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
Les parties hautes de l’échelle des préoccupations relèvent par nature de processus de
décisions peu ou faiblement normalisés. La question devient :
A ces questions particulières, des méthodes sont élaborées, affinées en permanence pour
répondre au mieux aux besoins du décideur. C’est à ce niveau que nous faisons la jonction
avec les cabinets de conseils; exemple : Ernst & Yung pour le recrutement d’un cadre
financier, le Boston Consulting Group proposa la première matrice de positionnement sur
un marché; AB Conseils SA spécialisé dans la conduite des alliances stratégiques ou la
maîtrise des facteurs clés de succès, l’AFAQ et la démarche qualité.
Ce qui est vrai pour les cabinets conseils en organisation l’est aussi pour les centres de
recherche universitaire ou industriel qui ouvrent de nouveaux espaces de résolution de
problèmes dans les domaines techniques et scientifiques.
Ainsi, cet objectif amène à considérer une échelle propre de décision normalisée
pour chaque niveau de préoccupations.
Par extension, nous pouvons réaffecter une échelle de normalisation de décisions dans les
niveaux bas des préoccupations en intégrant le management des personnes.
« complexité » dans les niveaux opérationnels et nous le verrons dans le paragraphe sur la
rationalité limitée.
Nous considérons que le dernier étage l’exécution de la tâche sur le poste de travail est
absorbé dans un management d’équipe au niveau des du service incluant
peu normalisée
Echelle de
Niveaux de Normalisation des
Préoccupations Décisions peu normalisée
Très faiblement
Philosophie Normalisée peu normalisée
Tactique bien n.
Logistique bien n.
Ce Rôle est interactif ; c’est parce que le cabinet Conseil a accompagné une entreprise en lui
proposant telle démarche pour résoudre son problème que ce même cabinet peut améliorer
sa méthode, ses modèles grâce au retour d’expériences.
Qualité de la structuration
Le problème, ou la décision, paraît bien structurée lorsque la formulation du
problème, ou des actions possibles, s'effectue à l'aide d'un modèle et d'une
représentation canonique.
Exemple :
la paye est structurée par les modèles comptables ;
l'approvisionnement par certains modèles de la recherche opérationnelle, etc.
Structuration et Modélisation.
La structuration est la notion descriptive du processus de résolution.
La modélisation est davantage la décomposition en fonctions.
Ce sont les facettes d'un même processus qui permet de rendre intelligible un
contexte de décision.
Normalisation
impossible
avec la
structure
choisie
Normalisation
Dans la branche du haut, on trouve les opérations qui dans leur modélisation
classique ne sont pas solubles par des algorithmes efficaces si bien que le
problème est structuré, mais la décision est en général prise « à l'expérience »,
à la suite de procédures essai erreur par des professionnels qualifiés.
2.2.4.4 - LA REPRESENTATION
Les différents niveaux de représentation que l'on peut observer dans la résolution de
problèmes sont décrits dans la figure ci-dessous avec des exemples, les exemples du niveau
n+l correspondent à des sous représentations du niveau n.
Ainsi, pour un problème donné, faisons le choix d'une résolution par la recherche
opérationnelle et optons pour la programmation linéaire.
machines, ouvriers, nombre d'heures ouvrées, etc., ces objets sont liés dans un modèle
qui met sous forme d'équations les contraintes et donne la fonction économique.
Enfin dans un dernier niveau, on définit quelles seront les variables entières et les variables
continues.
Il va de soi que les niveaux précédents ne sont pas indépendants entre eux et que certains
choix sont simultanés, comme par exemple celui des objets et des valeurs, parfois même la
représentation modèle-objets-valeurs se forme de façon concomitante dans la tête d'un
individu.
Nous désignerons les deux niveaux inférieurs de représentation sous le nom de modèle ou
modélisation.
Cette partition en deux niveaux correspond alors à ce qui a été observé lors de la résolution
de problèmes, le niveau supérieur étant celui des plans de Newell et Simon (1972).
Comme nous venons de le dire, l'indépendance entre les niveaux de représentation n'est pas
de règle.
Pour Piaget, toute action se place dans le cadre d'une représentation (pour nous d'un
«modèle») qui s'enrichit par «assimilation» (attraction de nouveaux objets par le modèle) et
«accommodation» (particularisation du modèle), l'ensemble de ce processus
d'enrichissement en fonction des expériences (actions et résultats des actions) s'appelle
«l'équilibration».
L'échec de l'équilibration va conduire à un autre modèle suivant le schéma suivant inspiré
de Courbon et Stabell (1986) et Ramaprasad (1987).
réfléchissante.
Tableau 5 : Modèle-Action-Equilibration
Il nous semble que chaque niveau de représentation, sauf le plus bas, est « fixable »,
le niveau modèle,
le niveau méthode
le niveau théorie.
STI 1 : Quand la méthode est fixée, le système doit posséder une mémoire des modèles et
des processeurs de modèles.
STI 2 :Quand le modèle est fixé, les objets le sont aussi ipso facto, seules les valeurs
peuvent changer.
Dans ce cas là, des processeurs arithmético-logiques simples sont suffisants pour procéder.
Exemple :
dans les anciennes bases de données de type fichier, on est juste capable d'ajouter
des données et de faire des interrogations prédéterminées.
2.2.4.4.5 - Modèle
Définition :
Nous avons donc un premier espace de résolution formé de modèles. C'est-à-dire qu'un état
de cet espace est un modèle, les opérateurs de cet espace sont des opérateurs de choix de
modèles, la réduction de la différence se réfère à la validité des modèles. Ce système de
production fonctionne pour le choix du modèle.
A un étage au-dessous, pour un modèle fixé, le système, afin d'évaluer les résultats,
fonctionne dans un espace de résolution formé d'états du type objets valués, un objet
valué étant un couple (objet, valeur).
Les opérateurs portent sur les valeurs, la réduction de la différence porte sur le
résultat.
Disons enfin qu'il existe des STI pour lesquels les méthodes ne sont pas fixées. C'est le cas
par exemple en statistique.
Le système vous donne le choix, méthode de Box-Jenkins ou l'analyse des données, puis
vous choisissez votre modèle relatif à la méthode sélectionnée, enfin vous choisissez vos
séries.
En résumé,
Bien souvent ces hypothèses ne sont pas réalistes, en particulier la seconde, surtout quand
l'individu est confronté à des objectifs contradictoires (cadre de la modélisation
multicritère). La vision proposée par Simon, s'inspire du comportement humain. Il faut
raisonner dans le cadre d'un modèle qui prend en compte les éléments suivants :
Les décisions humaines, qu'elles soient indépendantes ou non, sont prises une
par une, dans des domaines limités suivant un processus temporel.
L'appréciation du futur est limitée et, en tout cas, on en n'évalue pas tous les
scénarios.
Il n'existe pas de fonction d'utilité globale et il n'est pas nécessaire d'en
construire, d'autant plus que nos désirs sont souvent contradictoires.
A l'intérieur du processus de décision, la phase d'information est la plus
longue, l'information conditionne, en quelque sorte, très fortement la décision.
2.2.5.1.3 - Conséquences
Ce que cherche le décideur c'est une action « satisfaisante » compte tenu de ses fins.
Cependant, la rationalité limitée ne doit pas être comprise comme le refus de tout apport
normatif.
A cause de nos limites cognitives, ce processus n'est pas rationnel dans son ensemble
(rationalité limitée), ce qui entraîne qu'il n'est pas déterministe en ce sens qu'à situation
égale, deux individus différents arriveront à deux décisions différentes, mais que la façon de
chercher (problem solving) tend à être rationnelle compte tenu des capacités, des acquis et
des représentations de chaque individu (rationalité procédurale).
Remarque :
Echelle de
Niveaux de Normalisation des Rationalité de la
Préoccupations Décisions décision
Très faiblement
1 Philosophie Normalisée
2 Culture Rationalité
3 Politique Limitée
5 Tactique Rationalité
6 Logistique Totale
Les possibilités aux points de contrôle ( passage d’un état à un autre ) sont les suivantes :
Ainsi, il existe diverses méthodes qui vont permettre de différencier les heuristiques.
L'évaluation qui consiste à savoir si l'état où l'on se trouve est digne d'intérêt, soit pour
continuer l'exploration à partir de lui, soit pour être mis en réserve afin d'être développé par
la suite, cette évaluation est le point le plus important de toute recherche heuristique.
Un SIAD est un
Système Informatique de traitement de l’information et de résolution de
problème pratiquant la recherche heuristique.
5
SIAD , le terme anglais est Decision Support System ou DSS.
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 46
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
2.2.6.1.2 - Interactif
Interactif avait un sens fort dans les années 70, car ils s’opposaient à « saisie par cartes
perforées », « traitement par lot ». Aujourd’hui, les accès à la machine sont des transactions
interactives Homme Machine. Toutefois, le sens « Interactif » des années 70 n’a pas changé.
Le SIAD était interactif parce qu’il laissait le contrôle à l’Homme pour choisir ou décider
du modèle à appliquer lors de l’étape suivante. Nous verrons dans le paragraphe suivant 3
siad élémentaires qui mettent à la disposition de l’utilisateur des bibliothèques de méthodes
et de modèles et laissent au décideur, le soin de bâtir son cheminement heuristique.
En effet, les objets valués, correspondant à un état, sont définis, un certain nombre de
«computations», effectuées par un processeur d'état, fournissent, suivant un programme
informatique non interactif, des extrants (des données de sortie), ce sont ces dernières
valeurs qui vont être appréciées par l'utilisateur pour décider de la suite de la recherche
heuristique.
Nous présentons les siad élémentaires selon les 3 items suivants : la Théorie, La Méthode,
Le Modèle.
2.2.7.1 - LE TABLEUR
2.2.7.1.1 - Théorie
2.2.7.1.2 - Méthode
2.2.7.1.3 - Modèle
On construit le modèle en choisissant des objets (concepts) et les relations (équations) entre
les objets.
Cette grille de calcul (processeur d'état) met à jour le tableau après chaque modification.
2.2.7.1.5 - S.T.I.
Le modèle étant fixé, on entre dans un système de résolution de problème où chaque état est
une grille et les opérateurs sont ceux qui servent à modifier les valeurs de la grille.
Il n'y a pas d'exploration de style système de production sur l'ensemble des modèles, le
changement à ce niveau est « irrévocable ».
C’est l’utilisateur qui gère sa base de modèles; celle-ci n’est pas explicite; sa construction en
est laissée à l’utilisateur.
Les modèles sont contenus en puissance dans les fonctions du du tableur mises à la
disposition de l’utilisateur.
Ou plutôt, je dois organiser le changement.
La recherche heuristique n’est pas aidée par la machine; c’est à l’utilisateur de gérer cette
démarche en construisant les modèles qui lui semblent opportuns de créer pour réduir la
différence. Au niveau supérieur, le modèle peut varier, changement de variables
explicatives, des équations, etc.
C’est par une réduction de différence par rapport au résultat que va s’organiser la recherche
heuristique des bonnes valeurs.
Exemple : les items des soldes intermédiaires de gestion seraient placés dans les lignes de la
matrice et aux colonnes correspondraient des périodes de temps (années, mois ou jours).
le problème est : Augmentation de la capacité d'autofinancement de l’entreprise.
la décision doit permettre d’apporter une solution ou au moins une amélioration.
La théorie consiste à dire que tout problème se résout par l'accès aux bonnes données qui
doivent ou devraient être quelque part.
2.2.7.2.2 - La méthode
2.2.7.2.3 - Le Modèle
Le modèle est l’ensemble des entités, des attributs et les relations définis par l’utilisateur.
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 49
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
2.2.7.2.4 - L’état
Soit une requête pour connaître les clients qui paient à plus de 30 jours.
L’état est la relation engendrée par la requête
Le processeur d’état est le processeur de requête qui fait les jointures, les projections et les
sélections nécessaires pour évaluer l'état engendré (relation) par ma demande.
Nous insérons entre Théorie et Méthode quelques concepts sur les systèmes experts.
2.2.7.3.1 - La Théorie
La théorie : tout problème peut être résolu à la suite de raisonnements qui sont
décomposables en règles logiques.
Des règles logiques, soit au sens de :
la logique des propositions ( mode 0+ ).
de l’emploi de variables dans la logique des prédicats ( mode 1 )..
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 50
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
2.2.7.3.2 - Remarque
Selon la rationalité présente dans les processus de décision (Cf. le paragraphe sur la
rationalité limitée) , les raisonnements sont formalisables sous forme de règles de
production du type : SI situation ALORS action
Type déductif : si a vraie alors b vraie; cette règle est une inférence, la partie
gauche, la prémisse, la partie droite , la conclusion.
Un système expert comprend une base de faits, un ensemble de règles et une structure de
contrôle.
En général, la base de faits est divisée en 2 parties : la base de faits elle-même et la base des
faits que l’on voudrait prouver ou « buts ».
Le fonctionnement du Système Expert correspond à la figure ci-dessous.
Oui
FIN
On distingue :
Elle peut se faire selon différentes méthodes dont l’emploi des prédicats ou
l’utilisation des « Frame » ou forme-objet où une unité d’information regroupe
un certain nombre de rubriques.
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 52
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
Nom Production
EST UNE firme ELF
Nb Unités France
Nb Unités USA
Cette notion permet d’attribuer un niveau de confiance à une règle. soit un nombre compris
entre 0 et 1.
Le moteur d’inférence est le module qui gère les opérations filtrage, sélection, exécution,
test d’arrêt. Ces opérations forment le cycle du moteur d’inférence.
La Restriction => limitation du nombre de règles à filtrer
Le Filtrage => élection d’un groupe de règles à l’exécution.
La Sélection => ordonnancement séquentiel des règles à présenter à l’exécution.
L’Exécution de la règle => génération d’un fait nouveau ( en général )
Test d’arrêt.
Le Système est à chaînage mixte s’il est gouverné à la fois par les faits et par les buts.
Cette formulation des règles permet une application indépendante des faits.
2.2.7.3.12 - La Théorie
2.2.7.3.13 - La Méthode
La méthode est l'emploi de règles conjointement avec une structuration des connaissances
ad hoc :
réseaux sémantiques,
certains réseaux de formes-objets.
2.2.7.3.14 - Le Modèle
Ici, le modèle n'est pas fixé, il correspond à la base de règles qui sera réalisée.
Exemple :
je souhaite acheter une PME. Pour cela je vais faire un modèle d'évaluation des PME. Je
ferai intervenir des concepts quantitatifs (comme le chiffre d'affaires, le résultat brut
d'exploitation, etc.), et qualitatifs (comme la qualité des dirigeants et du personnel). Ce
modèle ou base de règles me permet de faire de multiples évaluations de PME.
2.2.7.3.15 - Etat
Chaque état est un état de la PME (paramètres qualitatifs et quantitatifs, c'est-à-dire base de
faits).
2.2.7.3.16 - Opérateur
L'évaluation d'un état (processeur d'état) porte sur le résultat de l'expertise et l'obtention
d'une évaluation de la PME qui semble réaliste.
Il existe un deuxième niveau de recherche heuristique, c'est celui qui permet de faire varier
les modèles de l'entreprise. Chaque état est un modèle de l'entreprise (sous forme de règles,
d'objets et de relations entre les objets, un graphe de schémas par exemple).
Les opérateurs sont des opérateurs de modification des objets et des relations entre objets
(schémas).
2.2.7.3.19 - Remarques
En Résumé :
Remarque
Remarque : Nous cherchons à illustrer au travers d’une représentation simple les quelques
relations entre les éléments exposés dans ce sujet en sachant que la représentation comporte
ses propres limites.
Représentations
Environnement Espace de Résolution
Mentales de l'Organisation de Problèmes
Niveaux de
Préoccupations
Machine Décideur 1 Philosophie
Mémoires / Processeurs Compétences 2 Culture
Intellectuelles /
3 Politique
4 Stratégique
Environnement 5 Tactique
Intérieur et Extérieur de l'Organisation 6 Logistique
7 Tâche
Figure 13 : le système décisionnel
Machine Décideur
TABLEUR ( Dialogue )
SGBD
Mémoires / Processeurs
Cette partie a permis de définir des concepts utiles à cerner le Système décisionnel de
l’organisation .
Le Système Homme-machine
Les caractéristiques de la décision.
En résumé, nous rappelons les échelles liées à l’échelle des préoccupations du dirigeant ou
du décideur.
3 Politique
5 Tactique
L’atome informatif du contenu informatif est l’échange économique ( échange d’un produit
ou service et d’un flux financier ) entre deux Tiers. Nous désignons cet échange sous le
terme « Acte économique »; nous en faisons l’extension à toute prestation faite par une
administration publique ou privée auprès de ses administrés, sachant que le flux financier
peut-être éventuellement nul. Nous étendons cette définition également aux relations
Clients-Fournisseurs entre 2 services d’une organisation. Le contenu informatif commence
par le traçage des évènements de base que sont ces actes économiques.
Leur compréhension et les explications à postériori trouveront des éléments de réponse dans
le contexte de ces évènements basiques. Ce contexte est en tout premier lieu constitué par le
contrat qui lie les tiers concernés, puis plus largement viendront les éléments extérieurs,
marché, concurrence, etc..
L’acte économique se réalise dans une relation contractuelle exprimée ou non exprimée
éventuellement , s’il s’agit d’une administration.
Exemple de Sociétés : Un Groupe de lingerie passe un contrat de référencement de 4
marques de lingerie féminine avec un groupe Distributeur. Le contrat prévoit la prise de
commande par les services achats du distributeur, les livraisons aux centres logistiques,
l’envoi de la facturation au siège, etc... période : du 1er Janvier 99 au 31 décembre 99, Tarif
: tel niveau de prix, remises, avec p campagnes promotionnelles, avec x manifestations
ponctuelles et les utilisant l’EDI pour la prise de commande, l’avis de livraison, la remontée
des ventes vers le fournisseur, via le réseau ALLEGRO.
Exemple d’Administration :
Le service d’état civil de la mairie est ouvert du Lundi au Vendredi de 9h à 12h, de 14h à
17h et le Samedi de 9h à 11h.
Les « actes économiques » de ce service sont les délivrances de fiches d’état civil, de
« certifications conformes » de photocopie, d’extrait de naissance, etc...
La structure de l’acte :
2 Tiers ( Contrat d’échange ( n actes économiques)).
Acte économique ( tiers1, tiers2, produit, prix d’échange, date, No de contrat )
2.3.1.1.2 - le Contrat
Le contrat pourrait être défini de la façon suivante : Contrat ( No , tiers 1, tiers 2 ( Type
d’actes économiques ou prestations, Liste des clauses ) )
2.3.1.1.3 - L’environnement
la base des événements relatifs à la compréhension sont : les contrats, les événements non
répétitifs à fort impact, l’évolution extérieure.
Exemple d'événements :
Une Campagne promotionnelle dans la vallée du Rhône sur les fruits frais
le départ du responsable commercial lors du lancement d’un nouveau produit,
etc...
Environnement
Base de Faits
Figure 17 : modèle des données simplifié du contenu informatif de base du système décisionnel
Nous avons présenté, en introduction de cette partie, les types d’entreprises ou organisations
concernées par notre sujet. Nous croisons type d’organisations et type d’activités et nous ne
retenons que les intersections renseignées; nous les listons simplement.
Pour approcher le contenu informatif des systèmes décisionnels, nous pouvons suivre la
démarche stratégique de l’organisation.
Elles croisent en général différentes approches qui vont se retrouver dans le système
décisionnel de l’entreprise.
Ce schéma peut aussi être pris en considération par une organisation qui se trouve dans la
périphérie environnementale.
Législatif
Concurrents
Culturel
S.Ass.
d'Influence
Ecologique
Environnement Technologique
Nous présentons le schéma d’une autre approche « Création de Valeur » pour montrer la
prise en compte des éléments intérieurs ( recherche et développement, Unités de
Productions, Savoir-Faire Managériaux, etc.... ).
Création de
Valeur
Savoir-faire
managériaux
Forces
Concurrentielles
Profit du
Satisfaction de
Producteur-
l'utilisateur
Vendeur
Prix
Différenciation -
Coût
Qualité de l'offre
2.3.2.5 - CONCLUSION
Pour terminer l’aspect stratégique, nous montrons la correspondance avec la définition d’un
espace de résolution de problème.
L’ensemble des décisions stratégiques prises ou à prendre représentent l’espace d’états d’un
espace de résolution de problème.
Etat
Ef Objectif
E4 E4
E3 E3
E2 E2
E1 E1
Etat Initial
Ei
Amener l’organisation du point A initial au point B état final est une gestion de projet qui
peut se mener comme une « gestion de projet canonique ». La relecture, à posteriori du
chemin parcouru par rapport aux objectifs, se comprendra d’autant mieux que les
événements importants auront été tracés.
La manière de nourrir la partie haute des niveaux de préoccupations influera sur les
décisions des niveaux plus bas. Cette partie haute peut s’intéresser aux évolutions sur des
périodes plus longues; réintégrer le passé de l’entreprise pour mieux se projeter dans
l’avenir.
La gestion du complexe est le domaine dans lequel il nous faut avancer dans un état
d’esprit de rationalité limitée et d’organisation apprenante en permanence.
2.3.3.2 - LA MONDIALISATION
2.3.3.3 - LE CLIENT
Un client de plus en plus difficile à satisfaire, versatile, et qui n’est pas nécessairement
argenté entraînant une organisation orientée vers le client et inversant de haut vers le bas, la
traditionnelle pyramide hiérarchique. Modification d’organisation Pyramide vers la
Pyramide et le Réseau. Développement du management par projet.
2.3.4 - CONCLUSION
« Montrez-moi votre système d’information, et je vous dirai qui vous êtes » . En effet, si la
structure du contenu peut s’exprimer relativement simplement dans les niveaux
opérationnels de l’organisation ( structure des actes économiques ); toute la variété des
organisations et de leurs activités proviendra de cette partie environnementale ( Contrat,
historique des événements marquants ) et des richesses intellectuelles et humaines des
dirigeants.
C’est dans cet environnement que nous terminons en positionnant chacun des outils d’aide à
la décision.
Nous proposons de situer les outils et les techniques d’aide à la décision que sont
le data warehouse,
l’analyse multidimensionnelle,
le Data Mining,
le Système Expert,
le tableau de Bord
et l’E.I.S.
Machine Décideur
TABLEUR ( Dialogue )
SGBD
Mémoires / Processeurs
Machine Décideur
Data Warehouse
( Dialogue )
Mémoires / Processeurs
Faut-il affecter des volumes de données à chacune des tailles d’entrepôt de données ?
Ce que l’on peut dire :
Tous les autres outils d’aide à la décision exploitent des données du SGBD. Si
l’organisation n’a pas de data warehouse, alors l’outil d’aide à la décision qu’elle utilise ,
intègre une fonction SGBD avec les qualités du data warehouse qui seront exposées dans le
chapitre suivant.
Comme nous l’avions dit, la base du SGBD est constituée de tables de « bonnes données ».
Aussi, dans un transfert du SGBD vers le Tableur, c’est d’abord une opération miroir qui se
passe : il y a transfert d’une population d’individus.
Ainsi un premier ensemble de modèles qui pourront s’appliquer sur le tableur sont les
modèles d’analyse de population ( classification, évaluation, ..... ).
Ce tableur permet de nombreux niveaux d’agrégation par dimension. Cet outil permet de
quantifier.
Un chapitre est consacré à l’analyse multidimensionnelle et aux règles OLAP. Ces règles
OLAP caractérisent le système décisionnel multidimensionnel et énoncent des
recommandations sur le modèle de SGBD. C’est pourquoi nous avons fait référence dans la
figure ci-dessous au SGBD.
Machine Décideur
Analyse Multidimensionnelle
TABLEUR ( Dialogue )
Mémoires / Processeurs
Comme les outils précédant, le data mining, « Mine de Données à exploiter » va travailler à
partir de données extraites du Data Warehouse et les ranger dans un tableur.
Cet outil permet de rechercher les causes des résultats donnés par l ’analyse
multidimensionnelle, de vérifier des hypothèses, et de découvrir des corrélations entre les
données.
1. par rapport au tableur : il permet l’emploi de toutes les méthodes et modèles réservées
aux analyses de population et l’emploi de tous les autres modèles mathématiques.
2. par rapport au Système Expert : Il peut alimenter un système expert des connaissances
émergentes.
Selon les éditeurs de logiciels, cet outil peut avoir un comportement superposable au
fonctionnement d’un système Expert. Il permet de pratiquer le chaînage avant, arrière, de
tracer l’arbre des décisions, etc....
Machine Décideur
Analyse
Système Expert DATA MINING
Multidimensio
nnelle
TABLEUR ( Dialogue )
Mémoires / Processeurs
Le Système Expert travaille sur une base de connaissance. A ce titre, il peut se trouver
enrichi des résultats de l’analyse multidimensionnelle, du Data Mining et des tableaux de
Bord.
Comme son nom l’indique, c’est un tableur. A ce titre, il peut se trouver en sortie du SGBD
( data warehouse ) ou en sortie d’une autre outil d’aide à la décision. Sa finalité
organisationnelle est de suivre un « Indicateur ».
Destinés au comité de Direction, ces EIS ou tableaux de Bord ont intégré au cours de leur
évolution des accès à de nombreuses bases pour permettre des indicateurs de synthèse,
l’analyse multidimensionnelle et bien sûr la fonction de tableaux de Bord.
2.4.3 - CONCLUSION
pour conclure cette problématique, nous terminons par quelques questions d’un dirigeant :
Au delà d’une bonne expérience des modèles, des analyses et des arsenaux d’informatique
décisionnelle, il y a toujours une prise de risque; en général, il faut prendre un risque par
Jour !!!
Nous avons positionné Data Warehouse et Data Mining dans le système décisionnel de
l’organisation, les chapitres suivants vont présenter plus en détail leurs caractéristiques,
leurs apports respectifs dans l’aide à la décision, et leur mise en œuvre.
3 - LE DATA WAREHOUSE
3.1 - PRESENTATION
L’idée de constituer une base de données orientée sujet, intégrée, contenant des
informations datées, non volatiles et exclusivement destinées aux processus d’aide à la
décision fut dans un premier temps accueillie avec une certaine perplexité. Beaucoup n’y
voyaient que l'habillage d’un concept déjà ancien : l’infocentre.
Mais l’économie actuelle en a décidé autrement. Les entreprises sont confrontées à une
concurrence de plus en plus forte, des clients de plus en plus exigeants, dans un contexte
organisationnel de plus en plus complexe et mouvant.
Pour faire face aux nouveaux enjeux économiques, l’entreprise doit anticiper. L’anticipation
ne peut être efficace qu’en s’appuyant sur de l’information pertinente. Cette information est
à la portée de toute entreprise qui dispose d’un capital de données gérées par ses systèmes
opérationnels et qui peut en acquérir d’autres auprès de fournisseurs externes.
Mais actuellement, les données sont surabondantes, non organisées dans une perspective
décisionnelle et éparpillées dans de multiples systèmes hétérogènes.
Pour répondre à ces besoins, le nouveau rôle de l’informatique est de définir et d’intégrer
une architecture qui serve de fondation aux applications décisionnelles : le Data Warehouse.
Depuis plusieurs dizaines d’années, une importante masse d’informations est stockée sous
forme informatique dans les entreprises. Les systèmes d’information sont destinés à garder
la trace d’événements de manière fiable et intègre. Ils automatisent de plus en plus les
processus opérationnels.
Il est intéressant de calculer les retours sur investissement rendus publics. Ils se calculent
rarement en terme de baisse de coûts, mais en terme de gains. Par exemple, ils permettent un
meilleur suivi des ventes, une meilleure compréhension des habitudes d’achats des clients,
d’une adaptation des produits à une clientèle mieux ciblée.
A ce titre, le Data Warehouse doit être rapproché de tous les concepts visant
à établir une synergie entre le système d’information et sa stratégie.
A première vue, les systèmes opérationnels seraient des mines d’or informationnelles. En
fait, il n’en est rien.
Eparpillées : il existe souvent de multiples systèmes, conçus pour être efficace pour
les fonctions sur lesquelles ils sont spécialisés.
Peu structurées pour l’analyse : la plupart des systèmes informatiques actuels ont
pour objet de conserver en mémoire l’information, et sont structurés dans ce but.
Utilisées pour des fonctions critiques : la majorité des systèmes existants est
conçue dans le but unique de nous servir avec des temps de réponse corrects.
S’il existe effectivement des informations importantes, il n’en est pas moins nécessaire de
construire une structure pour les héberger, les organiser et les restituer à des fins d’analyse.
Cette structure est le Data Warehouse ou « entrepôt de données ». Ce n’est pas une usine à
produire l’information , mais plutôt un moyen de la mettre à disposition des utilisateurs de
manière efficace et organisée.
La mise en œuvre du Data Warehouse est un processus complexe. L’objectif à atteindre est
de recomposer les données disponibles pour en donner :
Le Data Warehouse permet la mise en place d’un outil décisionnel s’appuyant sur les
informations pertinentes pour l’entreprise, centrées sur le métier utilisateur.
Systèmes externes
Systèmes hétérogènes
de production
IBM
EXTRACTION
PREPARATION
CHARGEMENT
BULL
HP ACCES,
STOCKAGE
VISUALISATION
IDENTIFIER
POINT
FOCAL
Cette figure illustre l’objectif d’un Data Warehouse, sorte de point focal stockant en un
endroit unique toute l’information utile provenant des systèmes de production et des sources
externes.
Avant d’être chargée dans le Data Warehouse, l’information doit être extraite, nettoyée et
préparée. Puis, elle est intégrée et mise en forme de manière compréhensible par être
comprise par l’utilisateur.
3.3 - DEFINITION
De nombreuses définitions ont été proposées, soit académiques, soit par des éditeurs
d’outils, de bases de données ou par des constructeurs, cherchant à orienter ces définitions
dans un sens mettant en valeur leur produit.
Le Data Warehouse est une collection de données orientées sujet, intégrées, non
volatiles et historisées, organisées pour le support d’un processus d’aide à la
décision.
♦ Orientées sujet
♦ Données intégrées
♦ Données historisées
3.4.1 - LA STRUCTURE
Niveau de
Données agrégées synthèse
Méta Données
Données détaillées
Niveau
Données détaillées historisées d'historique
Elles reflètent les événements les plus récents. Les intégrations régulières des
données issues des systèmes de production vont habituellement être réalisées à ce
niveau.
Les volumes à traiter sont plus importants que ceux gérés en transactionnel.
Attention : le niveau de détail géré dans le Data Warehouse n’est pas forcément
identique au niveau de détail géré dans les systèmes opérationnels. La donnée
insérée dans le Data Warehouse peut être déjà une agrégation ou une simplification
d’informations tirées du système de production. Exemple : l’étude du panier de la
ménagère nécessite de stocker le niveau de finesse du ticket de caisse.
♦ Les méta-données
La logique d’accès aux données la plus utilisée est la suivante : les utilisateurs commencent
à attaquer les données par le niveau le plus agrégé, puis approfondissent leur recherche vers
les données les plus détaillées (Drill Drown).
L’accès des données se fait également directement par les données détaillées et historisées,
ce qui conduit à des brassages de données lourds, demandant des machines très puissantes.
Le Data Warehouse est une réussite dans une entreprise lorsque le nombre d’utilisateur
accédant aux données de détail augmente.
• L’architecture réelle,
• L’architecture virtuelle,
• L’architecture remote.
C’est une combinaison de l’architecture réelle et de l’architecture virtuelle. Elle est rarement
utilisée.
L’objectif est d’implémenter physiquement les niveaux agrégés afin d’en faciliter l’accès et
de garder le niveau de détail dans le système de production en y donnant l’accès par le biais
de middleware ou de passerelle.
3.4.2.4 - SYNTHESE
Les différents éléments d'appréciation sont repris dans le tableau récapitulatif ci-dessous :
L’infocentre est une collection de données orientées sujet, intégrées, volatiles, actuelles,
organisées pour le support d’un processus de décision ponctuel.
Le Data Warehouse est une collection de données orientées sujet, intégrées, non volatiles,
historisées, organisées pour le support d’un processus d’aide à la décision.
Dans un infocentre, chaque nouvelle valeur remplace l’ancienne valeur. Il est donc
impossible de retrouver une valeur calculée dans une session préalable aux dernières
alimentations. La non volatilité est une caractéristique essentielle du Data Warehouse.
De même, l’historisation des données dans un infocentre, il n’y a pas de gestion
d’historique des valeurs.
L’infocentre sert à prendre des décisions opérationnelles basées sur des valeurs courantes.
Au niveau d’un Data Warehouse, l’utilisateur travaille sur les historiques pour des prises de
décisions à long terme, des positionnements stratégiques et pour analyser des tendances.
Dans un infocentre, l’intégration des données est plus ou moins poussée. Le processus
d’alimentation est simple.
Le finalité d’un infocentre est de permettre aux utilisateurs d’accéder à leur données dans
leurs propres termes.
Intégrées Intégrées
Actuelles Historisées
Organisées pour le support d’un Organisées pour le support d’un
processus de décision ponctuelle processus d’aide à la décision
Outil Architecture
La mise en évidence des différences est exprimée par les questions suivantes :
• Quels infocentres sont motivés par des objectifs business et sont au service de la
stratégie de l’entreprise ?
L’infocentre est un outil alors que le Data Warehouse est une architecture.
L’objectif à atteindre est de recomposer les données disponibles pour en obtenir une vision
intégrée et transversale aux différentes fonctions de l’entreprise, une vision métier au travers
des différents axes d’analyse et une vision agrégée ou détaillée, adaptée à son besoin.
Application N
Application 3
Application 2
Application 1
ACQUISITION
STOCKAGE ACCES
IDENTIFIER
Infrastructure opérationnelle
Infrastructure technique
• les applications,
Un Data Warehouse se fait en plusieurs itérations. Chaque sujet traité est décomposé en un
ensemble d’initiatives (projet décisionnel entrant en jeu dans la construction d’un Data
Warehouse dans une démarche itérative).
Les applications doivent rester maîtrisables et fournir des résultats tangibles dans un délai
de moins de six mois, qui correspond au délai moyen de réalisation d’applications.
Le périmètre de chaque application doit être clairement défini (acteurs concernés,
fréquences et périodicité des analyses, ...).
• l’acquisition,
• le stockage,
• l’accès.
4.2.1 - L’ACQUISITION
4.2.2 - LE STOCKAGE
Le composant de base est le SGBD. Il doit être spécifiquement adapté aux caractéristiques
de l’accès décisionnel.
Du fait de l’importance de l’historique, la structuration physique des données est également
très importante.
Le SGBD apporte la transparence à l’évolution matérielle, l’indépendance, que ce soit au
niveau des types et du nombre de processeurs, des disques ou des mémoires, ainsi que la
transparence à l’évolution des systèmes d’exploitation.
4.2.3 - L’ACCES
Définir une architecture globale servant de support aux accès décisionnels impose des choix
technologiques non structurants. Il faudra mettre en place une infrastructure commune à
toutes les applications décisionnelles, tout en laissant aux utilisateurs l’opportunité d’utiliser
les solutions d’accès les mieux adaptées à leur problématique. (Les outils du marché sont les
requêteurs, les outils d’analyse multidimensionnelle, les EIS, le Data Mining, Les SIG).
Piloter
EIS
Analyser,
Agent intégré
Naviguer
aux outils
Interroger Les bases OLAP
Requêtes ad-hoc Les outils ROLAP
(QUERY)
Il faut commencer petit, qu’il s’agisse d’un prototype ou d’un Data Mart.
4. Gérer l’évolutivité
Quatre caractéristiques ont des effets déterminants sur la démarche de conception d’un Data
Warehouse :
Dans tous les cas, il n’existe pas de cadre figé pour la conception d’un Data Warehouse.
Chaque entreprise doit adapter le projet à son contexte, en ne perdant pas les objectifs de
vue. Cet objectif est de mettre en place un système d’information cohérent et intégré, le
système devant être décomposer en applications, chacune s’intégrant dans le Data
Warehouse.
Il est possible de commencer petit et voir grand : limiter l’objectif à un domaine précis
(Data Mart) ou faire un prototype. Ceci permet d’avoir un retour sur investissement rapide
et de prouver le bien fonder du concept.
Leur coût et leur durée de mise en œuvre sera estimé, ainsi que les bénéfices attendus et leur
terme.
Les projets envisagés (initiatives) doivent avoir une mise en œuvre courte ( environ six
mois) et doivent être bien délimités.
Il faut aussi évaluer le capital informatique, c’est-à-dire analyser les systèmes de production
sur lesquels le Date Warehouse doit s’appuyer, ce qui ne peut pas être fait sans voir
l’évaluation des initiatives.
Plusieurs décisions sont à prendre en ce qui concerne les données dont a besoin
l’entreprise :
• Si les données existent dans les systèmes de production, les initiatives sont
envisageables.
• Si les données n’existent pas dans l’entreprise, ni à l’extérieur (achat de fichiers), il
faut revoir ou abandonner les initiatives.
• Si les données n’existent pas dans l’entreprise, ni à l’extérieur, mais sont
stratégiques pour l’entreprise, il faut reporter.
• Si les données existent à l’extérieur, il faut prendre la décision d’achat.
Les estimations ne doivent pas être détaillées et doivent concerner le plus grand nombre
possible d’initiatives. Ce sera sur cette base que la politique technologique du Data
Warehouse sera déterminée.
5.2 - L’INFRASTRUCTURE
Des choix technologiques en phase avec la politique de l’entreprise doivent être faits à
plusieurs niveaux :
• Les fournisseurs : faut-il prendre un seul fournisseur (ce qui facilite la politique
d’intégration et en réduit les coûts de mise en œuvre) ou assembler les meilleurs
offres du marché (ce qui apporte une flexibilité, une adaptation à chaque projet,
mais coûte beaucoup en intégration).
• Les outils : faut-il construire, acheter ou faire avec l’existant.
• Comment sera utilisé le Data Warehouse, par qui, comment sera structuré
l’organisation qui l’exploitera.
Il faut vérifier que les solutions choisies fonctionnent entre elles. (Ne pas se fier aux
plaquettes commerciales en ce qui concerne la portabilité).
5.3 - LA FORMATION
Il sera impératif que les membres participants au projet soient favorables au changement.
La mise en œuvre est réalisée pour chaque initiative. La démarche proposée est une
démarche en cinq étapes :
• la spécification,
• la conception,
• la mise en œuvre et l’intégration,
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 101
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
Pendant l’étape de spécification, les différentes étapes des initiatives sont définies et
planifiées de manière plus détaillées.
Il est recommandé de faire attention aux coûts cachés que peuvent entraîner les technologies
informatiques.
L’étape de mesure permet de faire le bilan de la réalisation et de capitaliser les réussites et
échecs rencontrés pendant le développement de l’application.
• Une vision entreprise : chaque projet défini dans la première phase (initiative) est
construit de manière indépendante et répond à un objectif métier délimité, tout en
s’intégrant dans le Data Warehouse.
• Une vision projet : les projets identifiés deviennent des applications. Donc le
processus est itératif.
Il n’existe pas de démarche complète et universelle pour la mise en œuvre d’un data
Warehouse. Toute approche doit être adaptée à l’entreprise.
La mise en place d’un Data Warehouse doit s’accompagner de celle d’un référentiel de
données, permettant de décrire, stocker et diffuser les méta-données associées.
Cette mise en place passe par l’organisation d’une fonction d’administration des données à
plusieurs niveaux, par la définition de normes et de procédure d’administration des
référentiels.
La donnée est forcément liée à d’autres objets du système d’information. Il est donc
nécessaire de représenter, décrire et stocker les interactions avec d’autres données.
Le référentiel du Data Warehouse est l’ensemble des outils nécessaires à la mise en œuvre
de la fonction d’administration de données.
Un référentiel de données pour le Data Warehouse est un référentiel de données dans lequel
sont décrits l’organisation et la localisation des données, ainsi que les règles de
consolidation des données agrégées et historisées.
Il est conçu de manière à collecter l’ensemble des modèles de données nécessaires à la
construction et à l’exploitation du Data Warehouse.
La construction du référentiel est un projet qu’il est nécessaire de prévoir en parallèle à celui
du data Warehouse.
Il n’existe pas une seule manière de le faire. La problématique doit être considérée sous
deux aspects : organisationnel et technique.
Acheter une solution clé en main est très risquée : les fonctionnalités de l’outil
conditionnent alors l’organisation du projet.
Quelque soit l’outil choisi, il faut pouvoir le faire évoluer afin de s’adapter à de nouveaux
besoins.
6.3.1 - SECURITE
Le Data Warehouse a pour vocation de laisser à l’utilisateur une totale autonomie en ce qui
concerne la recherche et l’analyse des données. Cette liberté doit cependant être souvent
restreinte, notamment pour des raisons de sécurité. L’outil doit donc permettre d’adapter
l’environnement de travail à l’utilisateur qui s’y connecte selon sa fonction et donc ses
droits. Afin de mener à bien cette politique de sécurité, les notions d’utilisateur et de
groupe d’utilisateur sont indispensables. Cette notion doit néanmoins être dissociée de la
notion d’utilisateur du serveur de données. Il est en effet préférable que l’utilisateur se
connecte directement à l’outil d’aide à la décision et accède de manière transparente au
serveur de données sans en connaître le nom d’utilisateur et le mot de passe. Il n’y a ainsi
pas de risque que l’utilisateur se connecte au serveur par d’autres biais. Ce risque est
d’autant plus important que l’utilisateur trouve le plus souvent sur son poste de travail les
moyens de se connecter à un serveur de données. Il peut par exemple se connecter à partir
d’Excel à un serveur de données, via le driver ODBC.
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 105
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
Plus les autorisations pourront être définies à un niveau fin , plus l’environnement de
travail pourra être facilement adapté à chacun des profils d’utilisateur. Au delà du
catalogue dans sa globalité, l’outil doit donc permettre de définir des droits sur chacun de
ses éléments en restreignant le nombre de tables ou de colonnes disponibles ou, par un
critère de recherche, le nombre de lignes accessibles.
Au delà des droits concernant l’accès aux données, la possibilité d’affecter des privilèges
sur les requêtes et rapports prédéfinis est un facteur essentiel dans la définition d’une
stratégie de diffusion.
Ce besoin de contrôler les performances est dû à l’autonomie laissée aux utilisateurs par les
outils d’infocentre. En effet, l’administrateur n’a que très peu de maîtrise sur ce que vont
faire les utilisateurs et le modèle de données ne peut être dès le départ optimisé pour un type
d’utilisation particulier. Des fonctions d’audit permettent de remédier à cela en donnant à
l’utilisateur une vision des demandes les plus et les moins fréquemment utilisées. Il peut
alors paramétrer et optimiser son environnement (serveur, client) en conséquence. L’outil
doit donc offrir la possibilité de journaliser le texte des requêtes, leur durée d’exécution, le
nom de l’utilisateur les ayant envoyées.
6.3.3 - BATCHS
La possibilité d’effectuer des requêtes en batch est une fonctionnalité essentielle dans un
contexte de Data Warehouse où une requête peut avoir besoin de manipuler un volume
important de données. Un scheduler, planificateur, peut alors permettre d’envoyer une
requête à un instant donné ou à intervalles réguliers. Imposer des plages horaires aux
utilisateurs pour ces requêtes coûteuses est alors également une nécessité. L’administrateur
peut gérer les priorités d’après les requêtes ou les utilisateurs. Le scheduler doit permettre
non seulement d’envoyer une requête mais une série de requêtes. Un mécanisme d’alertes
peut alors avertir l’utilisateur si des valeurs sont exceptionnelles. On passe alors d’une
logique pull (l’utilisateur part à la recherche de l’information pertinente) à une logique push
(l’information vient vers l’utilisateur quand elle est jugée pertinente). Outre les requêtes
définies avec l’outil d’aide à la décision, le scheduler peut également permettre de lancer
des requêtes d’administration à un instant donné, pendant des plages horaires peu
occupées.
7 - LE DATA MART
Avec un Data Warehouse, il y a des risques d’échec. Rien n’invite l’utilisateur à se servir
d’un Data Warehouse. Le succès d’un Data Warehouse dépend donc uniquement de son
effective utilisation. Un des gros risques de la construction est de se cristalliser autour de la
problématique informatique et de se détourner de l’utilisateur. Le Data Mart minimise la
complexité informatique. Il est donc plus facile de se concentrer sur les besoins utilisateurs.
7.1 - DEFINITION
Le Data Mart est une base de données moins coûteuse que le Data Warehouse, et plus
légère puisque destinée à quelques utilisateurs d’un département. Il séduit plus que le Data
Warehouse les candidats au décisionnel.
C’est une petite structure très ciblée et pilotée par les besoins utilisateurs. Il a la même
vocation que le Data Warehouse (fournir une architecture décisionnelle), mais vise une
problématique précise avec un nombre d’utilisateurs plus restreint. En général, c’est une
petite base de données (SQL ou multidimensionnelle) avec quelques outils, et alimentée par
un nombre assez restreint de sources de données. Son coût ne dépasse pas deux à trois
millions de francs.
Mais pour réussir, il y a quelques précautions à prendre, gage de son évolutivité vers le Data
Warehouse.
Construire un ou plusieurs Data Marts départementaux au lieu d’un Data Warehouse central
permet de valider rapidement le concept d’informatique décisionnelle.
• En effet, dans les entreprises, des Data Marts isolés peuvent proliférer. Ces
entreprises risquent de retomber dans le piège d’une architecture composée de
multiples systèmes décisionnels incohérents, contenant des informations
redondantes. Cela coûte plus cher et c’est plus complexe à gérer qu’un Data
Warehouse centralisé. Les entreprises américaines, plus en avance que les
entreprises européennes, en ont fait les frais.
• Les Data Marts résolvent les problèmes de performance des gros Data Warehouse.
Mais ils font régresser vers le vieux problème des îlots isolés. Les entreprises vont
devoir affronter des problèmes techniques complexes et coûteux pour remettre en
cohérence les ensembles.
• Fédérer des Data Marts ou les faire évoluer vers une structure centralisée n’est pas
facile.
On peut se poser la question s’il est préférable de bâtir un gros et unique Data Warehouse
ou bien de concevoir un réservoir plus modeste, nourri par les données d’un seul
département.
Il est intéressant de commencer par un Data Mart, à condition de respecter certaines règles :
Donc le Data Mart peut préparer au Data Warehouse. Mais il faut penser grand, avenir, et
adopter des technologies capables d’évoluer.
8 - LE CONCEPT OLAP
8.1 - PRESENTATION
Les outils OLAP (On Line Analytical Process) reposent sur une base de données
multidimensionnelle, destinée à exploiter rapidement les dimensions d'une population de
données.
La plupart des solutions OLAP reposent sur un même principe : restructurer et stocker dans
un format multidimensionnel les données issues de fichiers plats ou de bases relationnelles.
Ce format multidimensionnel, connu également sous le nom d'hypercube, organise les
données le long de dimensions. Ainsi, les utilisateurs analysent les données suivant les axes
propres à leur métier.
Ce type d'analyse multidimensionnelle nécessite à la fois l'accès à un grand volume de
données et des moyens adaptés pour les analyser selon différents points de vue. Ceci inclut
la capacité à discerner des relations nouvelles ou non prévues entre les variables, la capacité
à identifier les paramètres nécessaires à manier un volume important de données pour créer
un nombre illimité de dimensions et pour spécifier des expressions et conditions
inter-dimensions. Ces dimensions représentent les chemins de consolidation.
OLAP concerne de ce fait au moins autant le monde des serveurs, voire des
structures de stockage, que celui des outils.
Afin de formaliser le concept OLAP, fin 1993, à la demande de Arbor Software, Edgar F.
Codd publie un article intitulé "Providing OLAP to User Analysts" aux Etats Unis, dans
lequel il définit 12 règles que tout système de pilotage multidimensionnel devrait respecter..
"Ce qu’il y a d’agréable avec ces outils OLAP", explique Eric Klusman, de Cantor
Fitzgerald LP, "c’est que je suis en mesure de distribuer les données aux utilisateurs sans
les obliger à apprendre des complexes formules de programmation, d’interrogation ou
même à ce qu’ils aient à programmer leurs tableurs". D’une façon générale, tous affirment
que l’on peut interfacer de nombreux outils d’utilisateurs avec des bases de données
multidimensionnelles sans qu’il soit nécessaire de consentir de lourds efforts de formation
ou des interventions importantes du service informatique.
Vue multidimensionnelle
Cette transparence se traduit pour l'utilisateur par un complément à ses outils habituels
garantissant ainsi sa productivité et sa compétence. Elle s'appuie sur une architecture
ouverte permettant à l'utilisateur d'implanter le système OLAP sans affecter les
fonctionnalités du système central.
Par ailleurs, l'utilisateur ne doit pas être concerné par l'intégration des données dans OLAP
provenant d'un environnement homogène ou hétérogène.
Le système OLAP doit donner accès aux données nécessaires aux analyses demandées. Les
outils OLAP doivent avoir leur propre schéma logique de stockage des données physiques
hétérogènes, doivent accéder aux données et réaliser n'importe quelle conversion afin de
présenter à l'utilisateur une vue simple et cohérente. Ils doivent aussi savoir de quel type de
systèmes proviennent les données.
Architecture Client/Serveur
La plupart des données pour OLAP sont stockées sur des gros systèmes et sont accessibles
via des PC. Il est donc nécessaire que les produits OLAP soient capables de travailler dans
un environnement Client/Serveur.
Dimensions Génériques
Toutes les dimensions doivent être équivalentes en structure et en calcul. Il ne doit exister
qu'une seule structure logique pour toutes les dimensions. Toute fonction qui s'applique à
une dimension doit être aussi capable de s'appliquer à une autre dimension.
Le schéma physique des outils OLAP doit s'adapter entièrement au modèle d'analyse
spécifique créé pour optimiser la gestion des matrices creuses. En effet, dans une analyse à
la fois sur les produits et les régions, tous les produits ne sont pas vendus dans toutes les
régions.
Support multi-utilisateurs
Les outils OLAP doivent supporter les accès concurrents, garantir l'intégrité et la sécurité
afin que plusieurs utilisateurs accèdent au même modèle d'analyse.
Support multi-utilisateurs
Les outils OLAP doivent supporter les accès concurrents, garantir l'intégrité et la sécurité
afin que plusieurs utilisateurs accèdent au même modèle d'analyse.
Les opérations doivent pouvoir s'effectuer sur toutes les dimensions et ne doivent pas faire
intervenir l'utilisateur pour définir un calcul hiérarchique.
Toute manipulation doit être accomplie via une action directe sur les cellules du modèle
sans utiliser de menus ou des chemins multiples à travers l'interface utilisateur.
La création des rapports dans les outils OLAP doit permettre aux utilisateurs de présenter
comme ils le désirent des données synthétiques ou des résultats en fonction de l'orientation
du modèle.
D'après EF CODD & Associates, les SGBD Relationnels n'ont jamais été conçus pour
fournir les puissantes fonctions de synthèse, d'analyse et de consolidation communément
appelées analyse multidimensionnelle des données. Ces types de fonctions ont toujours été
prévus pour être fournis par des outils séparés, orientés utilisateurs et complémentaires des
SGBD Relationnels. Les tables vont être transformées en un hypercube de données. Les
données vont pouvoir être visualisées sous différents angles grâce aux vues
multidimensionnelles.
OLAP, parce qu'il associe des mécanismes de navigation aux données, permet d'effectuer
des analyses de manière interactive, à l'opposé du requêteur pour qui chaque requête est une
fin en soi. Par contre, OLAP ne permet l'analyse d'information que dans un cadre prédéfini,
limitant dès lors l'autonomie potentielle de l'utilisateur. De ce fait requêtes et outils OLAP
doivent être considérés comme complémentaires plutôt que concurrents.
12 Règles de
Analyse Mutidimensionnelle
Codd.
SGBD_SIAD_2 2 Règles
Tableur_SIAD_1 3 Règles
SGBD_SIAD_2
Vue Conceptuelle Multidimensionnelle des données
Accessibilité à toutes les données utiles à la décision
Tableur_SIAD_1
Nombre Illimité de Dimensions et Nombre illimité de niveaux
d’agrégation
Toutes les dimensions sont équivalentes en structure et en calcul
Il n’y a pas d’opérations restrictives sur les dimensions
Interface Utilisateur
Souplesse de Création de Rapports
Manipulation intuitive des données
8.2.2 - COMMENTAIRES
Codd fixe la méthode de SGBD; celle-ci est multidimensionnelle. Cet aspect est
développé dans le paragraphe suivant au travers des méthodes M_OLAP et
R_OLAP.
« Accessibilité à toutes les données utiles à la décision » entraîne la possibilités
d’accéder à plusieurs bases de données internes ou externes à l’entreprise.
Conséquence : Codd recommande l’architecture Client-Serveur.
Aucun tableur n’offre un nombre infini de dimensions et de niveaux d’agrégation.
15 à 20 dimensions font partie des performances actuelles.
Enfin, nous pourrions regrouper les règles orientées « Utilisateur » :
Système & Architecture
L’accès possible à plusieurs utilisateurs simultanément
La performance demeure stable quelque soit le volume de données
Le système est transparent pour l’utilisateur
SGBD_SIAD_2
Accessibilité à toutes les données utiles à la décision
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 115
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
Interface Utilisateur
Souplesse de Création de Rapports
Manipulation intuitive des données
9 - ANALYSE MULTIDIMENTIONNELLE
Les serveurs OLAP ont été conçus pour s'intégrer dans un environnement client/serveur
afin d'en retirer les possibilités offertes. Les utilisateurs disposant de postes de travail
intelligents accèdent à un serveur de base de données multidimensionnelle. Celui-ci contient
un hypercube prédéfini dans lequel doit être stockée la globalité des données. Ce qui
nécessite de s'appuyer sur une information pré-packagée et fortement structurée. Il
permettra ainsi d'analyser la répartition d'un indicateur comme le " chiffre d'affaire" en
fonction des axes ou dimensions " clients ", " produit ", " temps". En outre, des hiérarchies
seront définies pour chaque axe d'analyse (par exemple, l'année, puis la saison, le mois et la
semaine, pour l'axe temps). Une fois cette structure multidimensionnelle établie, l'outil
OLAP propose des méthodes de navigation dans les données, comme le "drill-down" pour
aller vers les informations détaillées dans une hiérarchie, le "slice and dice" pour changer
d'axe d'analyse.
Temps
4000 1000
8000
Client 7000
3000
8000
12000 1000
2000
6000
8000
Produit
9.1 - LE MODELE
Un axe d’analyse essentiel est la dimension temps. Les tables contiennent des rangées
(tuples, enregistrements). Chaque rangée est constituée de colonnes (champs). Dans une
base de données standard, le premier champ de chaque enregistrement est la clé primaire,
l'unique identifiant de l'enregistrement. Par contre, le modèle de données multidimensionnel
est un tableau à n dimensions (hypercube). Chaque dimension possède une hiérarchie
associée de niveaux de consolidation. Chaque position dans un tableau multidimensionnel,
correspondant à une intersection de toutes les dimensions est appelée une cellule.
Année
Hiérarchie
d'une Mois
dimension
Semaine
Jour
Produit
Période
Indicateurs Dimensions
numériques d'analyse
Les variables, qui sont aussi appelées métriques, dans un tableau multidimensionnel
correspondent aux colonnes d'une table relationnelle. Les valeurs à l'intérieur d'une colonne
correspondent aux valeurs pour cette variable dans un tableau multidimensionnel.
Par rapport à l’axe temps, nous pouvons distinguer deux types de variables à analyser :
des variables de flux, dont les variations sont enregistrées dans la base de données.
Pour déterminer leur montant pendant une certaine période, il suffit de cumuler les
différentes variations ayant eu lieu dans cette période. Par exemple, pour obtenir le
chiffre d'affaire du mois de Mai 1998, il suffit de faire la somme des chiffres
d'affaire de chaque jour du mois.
des variables d’état, indiquant le contenu d’une variable à un instant t. Le cumul des
valeurs prises dans une période donnée n’indique généralement plus la valeur de
cette variable pour cette période. Par exemple pour une variable indiquant l’état du
stock au début de chacun des trimestres, l’entreprise peut considérer que l’état du
stock pour l’année est égal à son état au 1er trimestre. Les valeurs des 4 trimestres
n’ont donc pas à être cumulées pour obtenir le stock annuel. L’administrateur ou
l’utilisateur doit pouvoir indiquer à l’outil si une variable est une variable d’état et
quelle valeur elle devra prendre pour un attribut donné.
Les métriques de base sont l’association d’une colonne de fait et d’une fonction
d’agrégation. Il est indispensable que l’utilisateur puisse aller au-delà et utiliser des
métriques complexes, dérivées de ces éléments de base en définissant des métriques
composées d’autres métriques, filtrées ou calculées par rapport à une dimension particulière.
Une variable sera élue indicateur selon la stratégie choisie. Par exemple pour analyser les
ventes on choisira comme indicateur la variable CA (chiffre d’affaires).
Chacun des axes d’analyse se décompose en attributs reliés entre eux par des relations père /
fils. Une dimension doit normalement pouvoir comporter plusieurs hiérarchies. Par
exemple, la dimension " produits " peut contenir une hiérarchie " Marque-Article " et une
hiérarchie " Secteur-Segment-Article ". Le mécanisme de drill-down se fera ainsi de la
marque vers l’article et du secteur vers le segment puis vers l’article. La mise en œuvre de
cette fonctionnalité n’est cependant pas toujours aussi simple. En effet, une dimension peut
contenir des hiérarchies partant d’un même attribut pour aller vers un attribut différent. Par
exemple, l’axe " Clients " peut contenir la hiérarchie " Client-Individu " et la hiérarchie
" Client-Société-Filiale ". L’outil doit alors permettre soit de redescendre de Client vers à la
fois Individu et Société puis de redescendre au niveau Filiale pour les clients de type
Société, soit plus simplement, permettre à l’utilisateur de choisir de redescendre vers le
niveau Individu ou vers le niveau Société.
Secteur
Client
Marque Segment
Individu Société
Article Filiale
Le " Slice and dice " désigne la possibilité de faire pivoter dynamiquement les axes du
tableau d’analyse croisée. Il est possible ainsi de passer d’un tableau présentant les ventes
par magasin en lignes et jour en colonnes par un tableau similaire présentant les ventes par
magasin en colonnes et jour en ligne.
Ces mécanismes s’appliquent sur le modèle défini soit par l’administrateur, soit
par l’utilisateur.
Ce modèle doit être assez complexe pour adresser l’ensemble des demandes de l’utilisateur
et assez souple pour que l’utilisateur puisse le personnaliser à son goût, en créant de
nouveaux attributs ou de nouveaux axes d’analyse ou en définissant de nouvelles métriques
calculées.
Le stockage des données sous une forme relationnelle permet d’éluder ces
problèmes de place et de cellules creuses.
10 - MODELISATION
Modéliser est une tâche délicate car elle met en jeu des populations différentes. Les
administrateurs de données et les utilisateurs "métiers" doivent créer un modèle global et
cohérent pour l'entreprise.
Les données du Data Warehouse doivent être orientées " sujet ", facilement
compréhensibles et utilisables par les utilisateurs.
Le modèle doit donc être adapté à leur démarche de recherche et d’analyse. Les modèles
relationnels normalisés ne sont alors pas toujours l’idéal. En effet, ils correspondent
généralement plus à une vision " technique " et informaticienne des données qu’à une vision
utilisateur. Ils peuvent répondre aux requêtes ensemblistes (liste des commandes d’un
client) ou détaillées (adresse et numéro de téléphone d’un client) mais adressent très peu la
notion d’analyse qui est essentielle dans le monde décisionnel. Ce concept est généralement
lié à une vision multidimensionnelle des données. L’utilisateur peut ainsi analyser des
informations selon diverses perspectives, par rapport à différents axes (par exemple les
ventes par rapport aux dimensions temps, régions et clients). La dénormalisation du modèle
des données, la redondance d’informations sont totalement envisageables dans un contexte
de Data Warehouse car la non volatilité des données permet de ne pas se préoccuper, lors de
l’utilisation du Data Warehouse, des problèmes d’intégrité des données ou de transaction.
Afin de répondre à ce type de besoin tout en conservant la technologie des SGBD
relationnels, il sera souvent nécessaire de modéliser les données de manière particulière, en
distinguant les différents axes et les indicateurs à analyser. On parlera alors de modèle en
étoile (star) ou en flocon (snowflake).
Le serveur de données devra donc permettre la gestion de gros volumes d’informations et
supporter les machines parallèles. Afin d’offrir à l’utilisateur une performance optimale, il
sera indispensable d’agréger physiquement les données (par exemple par rapport au temps),
et souvent nécessaire de partitionner ces données.
Ce modèle est très classique , il est formalisé par des méthodes comme MERISE. Il est très
complet car on y trouve beaucoup de données détaillées, ce qui laisse beaucoup
d’autonomie à l’utilisateur. Par contre aucune information intéressante dans un contexte
décisionnel n’existe directement.
Les outils d’infocentre ou de " query " accèdent pour la plupart à un modèle de données
relationnel quelconque. L’analyse multidimensionnelle de ces données pourra alors se faire
directement à partir d’un résultat de requête SQL. Les possibilités d’analyse sont alors assez
sommaires (par ex., définition d’un tableau d’analyse croisée).
La seconde technique consiste à générer et à manipuler, à partir du résultat d’une requête
SQL, un hypercube, le plus souvent stocké en local. Cette manipulation pourra être faite soit
par l’outil de query lui même, soit par un outil complémentaire dédié à ce type d’analyse.
L’hypercube généré ne permettra alors d’analyser qu’une partie des données de l’entreprise,
celles correspondant au contexte de la requête.
Lorsque le modèle comprend un grand nombre de tables, les performances deviennent alors
très mauvaises et les requêtes complexes à formuler par l’utilisateur.
On prend le modèle normalisé et le simplifie afin qu’il réponde mieux aux exigences du
décisionnel. Cette dénormalisation n’est pas réalisée en s’appuyant sur une technique
précise mais plutôt en s’intéressant aux besoins des utilisateurs. On va ainsi créer des
redondances d’informations et des informations agrégées qui diminueront le nombre de
tables. De ce fait, on améliorera les temps de réponse et on facilitera l’accès aux
informations par les utilisateurs car le modèle lui apparaîtra comme plus lisible.
Dans un modèle en étoile, tous les faits sont définis dans une simple table relationnelle.
Cette table des faits va être reliée par clés primaires à d’autres tables correspondant aux
dimensions. Dans l'exemple ci-après il s'agit des PRODUITS, BRANCHE, REGION et
TEMPS. En fait, le modèle en étoile essaie de superposer une structure multidimensionnelle
au dessus d'un modèle relationnel normalisé à deux dimensions.
Le modèle en étoile simplifie le modèle logique normalisé en organisant les données de
manière optimale pour les traitements d'analyse.
La modélisation en flocon est une modélisation en étoile pour laquelle on éclate les tables
de dimensions en sous-tables selon la hiérarchie de cette dimension. Dans notre exemple, on
éclatera PRODUITS, BRANCHE, REGION et TEMPS .
Dans les deux types de modèles décrits ci-dessus, on s’aperçoit que les points
forts sont la lisibilité du modèle par l’utilisateur et la performance d’exécution.
Mais par contre on peut leur reprocher leur manque de complétude et leur
orientation rapidement très métier avec le risque d’évolution du modèle très
problématique.
Emballage REGION
BRANCHE
TEMPS
BRANCHE CA TEMPS
Importation Trimestres
Concrètement, la table des faits est énorme en nombre de lignes mais le volume de chaque
ligne est limité. Les tables de dimensions sont elles beaucoup plus réduites. On accède aux
tables des dimensions par une sélection. Par exemple le CA pour les produits
électroménagers pour l’année 97 pour la région Nord. On y récupère les identifiants qui
seront les uniques points d’entrées à la table des faits pour y trouver le CA correspondant.
Une fois le modèle défini, la faculté de naviguer dans les données est un apport important
des outils OLAP (MOLAP, ROLAP).
L’entrepôt de données est le lieu idéal pour stocker des données externes et non structurées.
Si ces données ne sont pas stockées dans un endroit bien défini, on ne peut plus savoir d’où
viennent les données et on laisse la porte ouverte aux éventuelles redondances.
Les données externes peuvent être stockées au sein même de l’entrepôt de données.
Toutefois, pour diminuer le coût de stockage de ces données, on préférera les stocker
séparément, sur un support économique. A la détection des données externes, on choisira de
rediriger le stockage de ces données vers des périphériques d’archivage dédiés.
Le composant de base support du stockage est le SGBD. Outre le stockage, le SGBD doit
être spécifiquement adapté aux caractéristiques de l’accès décisionnel. Ces technologies
sont principalement liées à la parallélisation des requêtes et à diverses optimisations
proposées pour accélérer les sélections et les regroupements ensemblistes.
Les requêtes faisant appel à des données agrégées forment 80 % des demandes effectuées
dans un système décisionnel. La construction de tables agrégées permet d'améliorer très
nettement les temps de réponse de ces requêtes. Par exemple, on crée une table des ventes
mensuelles représentant la somme des ventes journalières par magasin et cela sur chacun
des mois.
ventes
journalières
VENTES Ventes
mensuelles
Ventes
annuelles
Cette technique d'optimisation trouve ses limites lorsque les bases des données atteignent un
volume important. Autre inconvénient, l'administration est complexe.
Un partitionnement physique des tables en plus petites unités selon le critère temps apporte
des performances stables dans le temps, des facilités pour les reprises, les indexations, les
restructurations et l’archivage. Notre table des ventes sera éclatée en 12 tables, soit une par
mois.
ventes
Ile de France
Ventes
Périgord
VENTES
Ventes
Provence
Ventes
Autres
Les méta-données sont des données sur les données. Les méta-données représentent la
totalité des informations concernant le Data Warehouse et les processus associés.
Elles sont intégrées dans un référentiel. La méta-donnée va également servir de mémoire
pour les données externes en recueillant les informations suivantes : l’identifiant du
document, sa date d’entrée dans l’entrepôt de données, la description du document, l’origine
du document, la date d’origine du document, les mots indexés du document , la date
d’épuration, la place physique du document, sa longueur...
Dans le cadre d’outils OLAP, les méta-données sont, pour l’essentiel, la structure
multidimensionnelle elle-même. Pour un outil d’aide à la décision, elles ont pour vocation
de présenter à l’utilisateur des éléments qui lui sont familiers et qu’il pourra donc analyser
facilement, de manière intuitive.
Dans le cas d’outil Rolap, les méta-données ont pour but de transformer le
modèle de stockage relationnel en une vision utilisateur multidimensionnelle.
Le mode de stockage privilégié pour les méta-données est le serveur relationnel. Elles sont
ainsi stockées une seule fois et accessibles par l’ensemble des utilisateurs. La mise à jour de
l’environnement client peut alors s’effectuer de deux manières : soit en rapatriant à chaque
connexion le contenu des méta-données, soit en ramenant en local les méta-données et en
les mettant à jour de manière automatique lorsqu’un changement est survenu. Cette
deuxième solution est plus performante, un nouveau catalogue n’étant ramené qu’une fois
sur le poste local.
OLAP sera l'outil à privilégier pour les données quantitatives si leur structuration a priori
est naturelle (cas rencontré fréquemment pour les applications financières ou
commerciales), alors que le requêteur sera idéal pour les données qualitatives et pour toute
analyse impromptue nécessitant l'autonomie de l'utilisateur (cas rencontré fréquemment
pour le marketing ou la gestion du personnel). Si les besoins sont à combiner, il faudra
choisir entre la richesse fonctionnelle apportée par plusieurs outils interfacés ou
l’homogénéité des outils intégrés.
MOLAP agrège tout par défaut. Plus le volume de données à gérer est important, plus les
principes d'agrégations implicites proposés par MOLAP sont pénalisants dans la phase de
Les outils ROLAP superposent au dessus des SGBD/R bidimensionnels un modèle qui
représente les données dans un format multidimensionnel. Ces produits diminuent
sensiblement le coût lié à la mise en œuvre d'un serveur de base de données
multidimensionnelle supplémentaire. Au travers des méta-données, ils permettent de
transformer l’analyse multidimensionnelle demandée par l’utilisateur en requêtes SQL. Pour
cela, ces outils s’appuient pour la plupart sur une modélisation particulière des données,
distinguant les axes d’analyse et les faits à observer. On parlera notamment de modèle en
étoile et de modèle en flocon ou encore des techniques de définition physique d'agrégations.
Ceci oblige à définir le modèle en fonction de l’outil à utiliser et des analyses à mener mais
est un gage de performance et de cohérence lors de l’utilisation de ce type de produits.
Cette contrainte exige un travail important des équipes informatiques et donc enlève
beaucoup à l'intérêt d'utiliser un SGBD Relationnel comme support de stockage pour
l'analyse multidimensionnelle.
Les outils ROLAP proposent le plus souvent un composant serveur, pour optimiser les
performances lors de la navigation dans les données ou pour les calculs complexes. Avec
ROLAP, il est déconseillé d'accéder en direct à des bases de données de production pour
faire des analyses sérieuses, pour des raisons de performances.
ROLAP n'agrège rien, mais tire parti des agrégats s'ils existent. De ce fait ROLAP est plus
lourd à administrer que MOLAP, puisqu'il demande de créer explicitement certains
agrégats.
Certains éditeurs, comme Informix avec Métacube ou Oracle avec Discoverer 2000, pallient
cependant à cette faiblesse avec des outils d'administration aptes à conseiller pour une
politique d'agrégation adéquate. ROLAP est donc mieux adapté aux gros volumes.
En s'appuyant sur les bases relationnelles, référence du marché, ROLAP tire partie des
évolutions de celles-ci (adaptation aux architectures hardware sophistiquées, extensions
objets, etc.).
EDITEUR PRODUIT
INFORMIX METACUBE
ROLAP MICROSTRATEGY DSS AGENT
PLATINUM TECHNOLOGY INFOBEACON
Les données du Data Warehouse sont, pour la plupart, issues des différentes sources de
données opérationnelles de l’entreprise. Des solutions logicielles sont alors nécessaires à
leur intégration et à leur homogénéisation. Celles-ci peuvent aller de l’écriture de batchs à
l’utilisation de logiciels spécialisés dans l’extraction et la transformation d’informations
(ETI, Prism, Carleton, ...). Ces outils ont pour objet de s’assurer de la cohérence des
données du Data Warehouse et d’homogénéiser les différents formats trouvés dans les bases
de données opérationnelles. Les solutions de réplication sont souvent citées comme pouvant
répondre à ce besoin. Très liées à un éditeur et à une technologie, elles ne sont en fait
adaptées qu’à un très petit nombre de cas, où les données sont issues de sources homogènes
et n’ont pas besoin d’être transformées.
Extraction, Transformation
Logiciels spécialisés Outils clients
Batch Aide à la décision
(interrogation, analyse)
Données de production
Data Mining
(extraction de connaissances)
Modélisation, Chargement,
Stockage, Optimisation
SGBD
Architecture parallèle
Accélérateurs de requêtes
Adaptation modèles spécifiques
L’extraction des données consiste à collecter les données utiles dans le système de
production. Pour rafraîchir la base décisionnelle, il faut identifier les données ayant évolué
afin d’extraire le minimum de données, puis planifier ces extractions afin d’éviter les
saturations du système de production.
On réalisera des extractions différentielles en marquant les données (date dans un fichier
LOG). Cette fonctionnalité devient importante lorsque le volume de données devient
important. L’intégrité des données est indispensable et nécessite la synchronisation des
différents processus d’extraction. Les problèmes liés à cette nécessaire synchronisation
peuvent être complexes, soit fonctionnellement, soit techniquement dans des
environnements très hétérogènes. Un autre problème est de traiter les données externes. Il
faut maintenir une surveillance du système d’information pour pouvoir les identifier et
s’assurer que ce sont les bonnes données qui sont recensées. De plus, la forme des données
externes, qui est souvent totalement anarchique accentue la difficulté. Pour être utiles, ces
données nécessitent un reformatage pour pouvoir les incorporer dans une forme exploitable
pour l’entreprise.
Enfin le troisième problème vient de l’apparition imprévisible de ces données qui les rend
difficiles à capter. En conséquence, l'outil d'extraction doit attaquer toutes sortes de sources
de données sans être perturbé et s’adapter aux futures. Pour extraire les données sources, il
y a plusieurs technologies utilisables :
des passerelles, fournies principalement par les éditeurs de bases de données. Ces
passerelles sont généralement insuffisantes car elles sont mal adaptées aux
processus de transformation complexes ;
des utilitaires de réplication, utilisables si les systèmes de production et décisionnel
sont homogènes et si la transformation à appliquer aux données est légère ;
Le nettoyage des données est une discipline sur laquelle de nombreux éditeurs travaillent
actuellement. Outre la qualité des données qu’ils permettent d’auditer et éventuellement
d’améliorer, les outils de nettoyage permettent de supprimer les doublons dans les fichiers.
Il s'agit à ce stade d'appliquer des filtres prédéfinis sur les données afin d'attribuer des
valeurs cohérentes aux variables mal ou non renseignées ou encore d'harmoniser les formats
(date : jj/mm/aaaa). On peut également avoir à convertir les données d'un format EBCDIC
vers ASCII. Dernier exemple, des données du système opérationnel doivent être agrégées
ou calculées avant leur chargement dans la base décisionnelle.
Il faut également pouvoir associer des champs sources avec des champs cibles. Il existe
plusieurs niveaux de complexité pour ces associations (cardinalités 1-1, 1-N, N-1 , N-N),
comme par exemple :
Certains outils peuvent également réaliser des analyses lexicales des champs sources. Ils
seront donc capables de comprendre que les champs suivants signifient la même chose :
"Boulvd", "Bd" ,"Boulevard".
En complément, on trouve des outils d'audit et d'analyse pour assurer le suivi du processus
afin notamment de contrôler les rejets.
Le chargement est la dernière phase de l’alimentation du Data Warehouse. C’est une phase
délicate notamment lorsque les volumes sont importants. Pour obtenir de bonnes
performances en chargement, il est impératif de maîtriser les structures du SGBD (tables et
index) associées aux données chargées afin d’optimiser au mieux ces processus. Les
techniques de parallélisation optimisent les chargements lourds. Pour les mettre en œuvre,
des utilitaires particuliers existent chez la majorité des éditeurs de bases de données.
Pour réaliser ce transfert des données, on peut utiliser le transfert de fichiers ou le transfert
de bases à bases.
Des logiciels contrôlent souvent les phases d'extraction, de transport et de chargement. Ils
créent un enchaînement automatisé et gèrent les mises à jour mais ils sont rarement capables
de s'occuper également du nettoyage des données
Il faut donc souvent combiner les outils pour alimenter un Data Warehouse.
EDITEUR PRODUIT
14 - QUELQUES CHIFFRES
IDC estime que les investissements en Europe destinés à la mise en œuvre de Data
Warehouse étaient de 2,4 milliards de dollars en 1995. Ces coûts intègrent les budgets
internes, mais aussi l’achat d’équipements, de logiciels, ou de services.
Les chiffres suivants présentent les résultats d’une étude réalisée en 1996 par le Data
Warehousing Institute. Au niveau des déploiements, ces chiffres sont impressionnants :
plus de 40 % des sociétés ont débuté la mise en place de leur Data Warehouse et plus de
30 % ont prévu de le faire dans les 3 ans. Au niveau des volumes de données, la majorité
des systèmes en place ne dépassent pas 100 gigaoctets, mais peu sont de taille inférieure
à 5 gigaoctets.
Plus de la moitié des entreprises américaines ont acheté un outil de datamining en 1997
(source IDC)
Malgré ces chiffres éloquents, il est difficile de décrire de manière générique et qualitative
les bénéfices d’un Data Warehouse : très liés à la stratégie de l’entreprise, ceux-ci
dépendent nécessairement de son secteur d’activité. Par exemple, une étude menée par
AT&T Teradata indique que dans la grande distribution, les principales zones d’opportunité
sont :
Ces outils ne sont plus destinés aux seuls experts statisticiens mais doivent pouvoir être
employés par des utilisateurs connaissant leur métier et voulant l’analyser, l’explorer. Seul
un utilisateur connaissant le métier peut déterminer si les modèles, les règles, les tendances
trouvées par l’outil sont pertinentes, intéressantes et utiles à l’entreprise. Ces utilisateurs
n’ont donc pas obligatoirement un bagage statistique important, du moins est-ce l’objectif
visé. L’outil doit donc soit être ergonomique, facile à utiliser et rendant transparentes toutes
les formules mathématiques et termes techniques utilisés, soit permettre de construire une
application «clé en main», rendant à l’utilisateur transparentes toutes les techniques
utilisées.
On pourrait définir le DATA MINING comme une démarche ayant pour objet de découvrir
des relations et des faits, à la fois nouveaux et significatifs, sur de grands ensembles de
données.
On devrait ajouter que la pertinence et l'intérêt du data mining sont conditionnés par les
enjeux attachés à la démarche entreprise, qui doit être guidée par des objectifs directeurs
clairement explicités ("améliorer la performance commerciale", "mieux cibler les
prospects", "fidéliser la clientèle", "mieux comprendre les performances de production"...).
Cette offre tend à se démocratiser, en cherchant à rendre accessible au plus grand nombre,
les divers outils du data mining. Pour cela, elle adopte de plus en plus un caractère
"moderne" et "convivial", parfois "boîte noire" pour ne pas dire "boîte magique".
Pour qui connaît depuis longtemps les outils de statistique et d'analyse de données, ce
phénomène peut paraître curieux. On sait depuis longtemps procéder à des classifications
automatiques, construire et exploiter des modèles performants, rechercher des corrélations
entre variables... On connaît même dans bien des cas l'incertitude attachée aux prévisions
réalisées, ce qui permet de relativiser ou pondérer les prises de décisions correspondantes
(ce dernier point est aussi essentiel que de déterminer les décisions elles-mêmes...).
On peut cependant faire aux méthodes "traditionnelles" le reproche de ne pas avoir été
vulgarisées. Le jargon qu'elles utilisent, les outils mathématiques (mal connus du grand
public) sur lesquels elles s'appuient, les hypothèses préalables et validations requises pour
une mise en œuvre rigoureuse... sont autant de freins à un usage répandu de ces méthodes.
Si des outils plus "récents", comme les réseaux de neurones ou les arbres de décisions,
connaissent un certain succès, ils le doivent à leurs performances (dans certains domaines),
mais probablement aussi à leurs qualités de convivialité, liées à une terminologie souvent
plus accessible, à leur présentation résolument "pratique" et à l'occultation des mécanismes
et algorithmes internes qui les régissent.
Une synthèse positive et optimiste des différents outils et courants pourrait consister à
améliorer la convivialité des méthodes traditionnelles et à proposer un cadre
méthodologique rendant plus fiable et rigoureuse l'utilisation des outils plus récents.
15.3 - DEFINITION
Le terme de Data Mining signifie littéralement forage de données. Comme dans tout forage,
son but est de pouvoir extraire un élément : la connaissance. Ces concepts s’appuient sur le
constat qu’il existe au sein de chaque entreprise des informations cachées dans le gisement
de données. Ils permettent, grâce à un certain nombre de techniques spécifiques, de faire
apparaître des connaissances.
L'exploration se fait sur l'initiative du système, par un utilisateur métier, et son but est de
remplir l'une des tâches suivantes : classification, estimation, prédiction, regroupement par
similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure,
l'optimisation.
La recherche opérationnelle n'est pas assimilée aux techniques de Data mining. Son objectif
est l'optimisation et la recherche prouvée de la meilleure solution, ce qui n'est pas le cas du
Data mining :
son champ d'application est plus large (voir pages 148 à 152),
on ne recherche pas la meilleure solution prouvée mais à faire le mieux possible,
enfin un outil de Data mining appliqué à un même ensemble de données ne donne
pas toujours les mêmes résultats, contrairement à la recherche opérationnelle.
On pourrait croire que les techniques de data mining viennent en remplacement des
statistiques. En fait, il n'en est rien et elles sont omniprésentes. On les utilise :
16 - LA RECHERCHE DE CONNAISSANCES
C’est en général le premier critère d'évaluation d'une série statistique. Le plus couramment
1 n
utilisé est la moyenne arithmétique : × ∑ (xi ni ) (N représente l’effectif total, xi le centre
N i =1
de la classe ou sa valeur, ni l’effectif de la classe), mais on lui associe ou préfère parfois le
mode (valeur la plus fréquemment trouvée) ou la médiane (valeur du représentant de la
moitié de l’effectif). La médiane présente l’avantage de ne pas être sensible aux valeurs
exceptionnelles (contrairement à la moyenne).
= ∑ ( x − x)
2
i
σ n
(la majorité des individus est entre moyenne - 2 σ et moyenne + 2 σ).
Ces indicateurs sont utilisés pour évaluer des valeurs manquantes, mettre en
évidence les valeurs exceptionnelles et donner une première synthèse des
données.
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 144
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
Très vite, les besoins des décideurs ont amené les statisticiens à rechercher des liens entre
plusieurs variables ou plusieurs populations. Ils ont donc créé de nouveaux indicateurs
comme le khi2, la covariance ou le coefficient de corrélation. La corrélation entre les
variables ne recouvre pas que la causalité; elle peut s’expliquer de plusieurs manières :
Ces techniques statistiques permettent de savoir s’il existe une relation entre
plusieurs variables, de faire des prévisions ou estimations.
Le but de ce type d’analyse est souvent de rechercher des liens de causalité
16.2.1 - L’ABDUCTION
Pour mieux exprimer ce qu’est l’abduction, le plus simple est d’en présenter un exemple :
Cette technique est notamment utilisée dans les outils d’aide au diagnostic médical pour
découvrir la maladie la plus probable depuis une liste de symptômes. Il faut cependant être
très vigilant avec ce type de raisonnement car il peut produire des résultats aberrants ou
triviaux :
Toutes les voitures ont un moteur, l’Airbus 320 a un moteur l’Airbus 320 est une voiture.
Pour éviter ce type de comportement, il suffit d’avoir un ensemble descriptif (ici : 4 roues)
suffisamment riche. Il aurait suffit de préciser : toutes les voitures ont 4 roues, un moteur,
un volant, de 3 à 5 portes, sont inscrites sur les registres des mines, etc... pour diminuer
considérablement le risque d’erreurs.
Cette information est certes vraie mais risque de ne présenter aucun intérêt.
16.2.2 - LA DEDUCTION
C’est le type de raisonnement le plus utilisé et le plus familier. Son atout majeur est qu’il ne
laisse pas de place au doute. Exemple :
16.2.3 - L’INDUCTION
C’est la technique la plus communément utilisée par le data mining. Elle consiste à tirer des
conclusions à partir d’une série de faits. Exemples :
Exemple 1 Exemple 2
La Clio a 4 roues La Clio a 4 roues
La Peugeot 106 a 4 roues La Peugeot 106 a 4 roues
La Laguna a 4 roues La Laguna a 4 roues
La Corsa a 4 roues La Corsa a 4 roues
Un patin à roulettes a 4 roues
Toutes les voitures ont 4 roues (100 %) Les voitures ont 4 roues (80 %)
Tableau 34 : exemples d'induction.
La certitude n’est pas absolue et sera donc associée à une probabilité. Plus les faits
corroborant l’hypothèse sont nombreux, plus la probabilité que la conclusion soit exacte est
forte.
Classification,
Estimation,
Prédiction,
Groupement par similitudes,
Segmentation (ou clusterisation),
Description,
Optimisation.
Afin de lever toute ambiguïté sur des termes qui peuvent paraître similaires, il semble
raisonnable de les définir.
17.1 - LA CLASSIFICATION
La classification se fait naturellement depuis déjà bien longtemps pour comprendre et
communiquer notre vision du monde (par exemple les espèces animales, minérales ou
végétales).
Dans le cadre informatique, les éléments sont représentés par un enregistrement et le résultat
de la classification viendra alimenter un champ supplémentaire.
La classification permet de créer des classes d’individus (terme à prendre dans son
acception statistique). Celles-ci sont discrètes : homme / femme, oui / non, rouge / vert /
bleu, ...
17.2 - L’ESTIMATION
Contrairement à la classification, le résultat d’une estimation permet d’obtenir une variable
continue. Celle-ci est obtenue par une ou plusieurs fonctions combinant les données en
entrée. Le résultat d’une estimation permet de procéder aux classifications grâce à un
barème. Par exemple, on peut estimer le revenu d’un ménage selon divers critères (type de
véhicule et nombre, profession ou catégorie socioprofessionnelle, type d’habitation, etc ...).
Il sera ensuite possible de définir des tranches de revenus pour classifier les individus.
Un des intérêts de l’estimation est de pouvoir ordonner les résultats pour ne retenir si on le
désire que les n meilleures valeurs. Cette technique sera souvent utilisée en marketing,
combinée à d’autres, pour proposer des offres aux meilleurs clients potentiels. Enfin, il est
facile de mesurer la position d’un élément dans sa classe si celui ci a été estimé, ce qui peut
être particulièrement important pour les cas limitrophes.
17.3 - LA PREDICTION
La prédiction ressemble à la classification et à l’estimation mais dans une échelle temporelle
différente. Tout comme les tâches précédentes, elle s’appuie sur le passé et le présent mais
son résultat se situe dans un futur généralement précisé. La seule méthode pour mesurer la
qualité de la prédiction est d’attendre !
17.6 - LA DESCRIPTION
C’est souvent l’une des premières tâches demandées à un outil de data mining. On lui
demande de décrire les données d’une base complexe. Cela engendre souvent une
exploitation supplémentaire en vue de fournir des explications.
17.7 - L’OPTIMISATION
Pour résoudre de nombreux problèmes, il est courant pour chaque solution potentielle d’y
associer une fonction d’évaluation. Le but de l’optimisation est de maximiser ou minimiser
cette fonction. Quelques spécialistes considèrent que ce type de problème ne relève pas du
data mining.
Nous retrouvons les fichiers militaires, affectations, garnisons, et carrières. Sur cet exemple,
voyons comment utiliser chaque tâche du data mining. Nous supposons que le travail de
préparation des données est fait.
La classification
Déterminer le grade en fonction du sexe, de l'âge, l'ancienneté, le salaire et les affectations.
Déterminer le sexe en fonction de l'âge, l'ancienneté, le salaire et les affectations.
L’estimation
L'estimation se fait sur des variables continues :
La prédiction
Dans cet exemple, nous pouvons prédire par exemple quelle sera la prochaine affectation
d'un militaire.
La description
Dans cet exemple, la description se fera surtout autour des indicateurs statistiques
traditionnels : âge moyen, pourcentage de femmes, salaire moyen
L’optimisation
L'exemple qui suit est fictif :
Compte tenu des effectifs nécessaires dans chaque grade pour chaque garnison et
connaissant les contraintes: on ne peut revenir dans une garnison qu'au moins 5 ans après en
être sorti, un militaire doit changer d'affectation au moins tous les 3 ans, … comment
affecter au mieux les militaires l'année prochaine ?
17.9 - SYNTHESE
La classification,
L’estimation,
La prédiction,
Le regroupement par similitudes,
La segmentation (ou clusterisation),
La description,
L’optimisation.
18 - LE CERCLE VERTUEUX
On ne met pas en œuvre une technique de data mining pour faire une simple exploration. Il
faut l'inscrire dans un contexte plus global, appelé le cercle vertueux. Celui-ci est composé
de quatre étapes :
La première étape consiste à identifier le domaine d'étude. Il faut répondre aux questions :
de quoi parlons nous et que voulons nous faire ? A ce stade, on définit un objectif général.
Lorsque le domaine est délimité, il faut recenser les données relatives au domaine, puis les
regrouper pour en faciliter l'exploration. Nous parlons de regroupement logique, ce qui
inclus le client / serveur, même si ce n'est pas recommandé. La troisième étape consiste à
mettre en œuvre une ou plusieurs techniques de data mining pour une première analyse.
Après évaluation et étude des résultats, des actions sont mises en œuvre. La dernière étape
consistera à évaluer ces actions, et par-là même la performance du data mining, voire le
retour sur investissements. L'achèvement du premier cycle débouche souvent sur
l'expression de nouveaux objectifs affinés, ce qui nous ramène à la première étape …
Pour mener à bien une action de data mining, il existe deux possibilités méthodologiques :
le test d’hypothèse et/ou la découverte de connaissances (dirigée ou non).
C'est le travail de base du processus. Il est souhaitable de réunir les différents représentants
des secteurs de l'entreprise, ce qui permet à chacun de réagir aux idées des autres en
fonction de son niveau d'expertise. Généralement les problèmes ne sont vus que du seul
point de vue d'un indicateur qui représente souvent un objectif à atteindre. On demandera
par exemple à un commercial d'atteindre un certain volume de vente ou de chiffre d'affaires
mais plus rarement de répondre à des questions comme "quelle est la durée de vie active des
clients ?" ou "quelle est la dépense globale des clients au cours de leur relation avec
l'entreprise et comment évolue-t-elle ?", etc... Le travail en groupes doit permettre à
l'entreprise de se poser de nouvelles questions pour générer de bonnes idées.
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 154
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
Lorsque les hypothèses sont posées, il faut déterminer quelles données vont permettre de
valider ou d'invalider ces hypothèses. Par exemple, une banque souhaitait savoir les motifs
de clôture des comptes. Une réunion de brainstorming a permis de déterminer des causes
possibles de clôture de compte, non liées à la politique de la banque (ce qui exclut les
clients mécontents après une hausse de tarifs, ...) :
Cause Symptôme
Le client s'est marié; le conjoint restant fidèle Réduction du solde et du nombre des
à son ancienne banque ils y ont maintenant transactions, demande de changement de
un compte joint. nom (si c'est une cliente).
A partir de cette analyse, il est devenu aisé de déterminer les données utiles pour permettre
de valider chacune des hypothèses.
Les données brutes sont rarement directement exploitables pour une opération de data
mining. Elles sont souvent issues de systèmes dont la vocation est la production et
nécessitent des adaptations, voire des transformations : codages, calculs, création de
données combinées calculées. Plusieurs problèmes se posent :
Quel est le bon niveau de détail ? Il faut définir le bon niveau de détail en fonction du
problème posé. Les données non résumées risquent d'être trop fines et occuper un espace
disque important. Le risque est alors grand pour que l'on utilise une fonction de
regroupement (fonction GROUP BY en SQL) pour faciliter l'exploitation. Dans ce cas, il est
préférable de résumer dès le départ les données mais le risque est de trop résumer et de
manquer dès le départ une notion qui pourrait être importante pour l'analyse.
Le codage permet également de résumer un ou plusieurs champs. Par exemple, sur une
étude démographique, il est intéressant de codifier l'adresse pour faire ressortir le
département (ce qui permet de codifier la région), la zone d'habitation (urbaine, périurbaine,
campagne, …), etc…
Les ordinateurs ne possèdent pas tous le même système d'exploitation ni système de codage
(EBCDIC, ASCII, …).De même, les formats de données numériques peuvent être différents
d'un système à l'autre. Il sera souvent préférable d'importer les données dans un système
unique (le data warehouse), ce qui évite ce type de problème. Sinon, il faut prévoir des
outils pour faire le transcodage.
codages soit en créant un nouveau codage, soit en utilisant l'un de ceux utilisés comme
référence.
Les données textuelles (champs au format texte) posent beaucoup de problèmes et sont
souvent non utilisées. Il est très difficile d'extraire d'un champ texte une donnée, sauf ci le
champ correspond à un codage connu ou s'il est très contraint (code postal, numéro de
sécurité sociale ou de plaque d'immatriculation de véhicule,…). La méthode de codage la
plus simple et la plus utilisée consiste à créer un tableau de transcodage avec un champ
contenant une valeur possible et le résultat codé. On pourra ainsi transformer les différentes
orthographes possibles d'une commune (avec toutes les formes d'abréviations imaginables)
pour ressortir le code postal ou rechercher dans un texte d'adresse les mots : Angleterre,
Ecosse, Irlande, Pays de galles, … et y associer un code pays. Il faut noter cependant que
depuis quelques mois apparaissent des outils de text mining qui facilitent ces tâches.
Ce type de problème est fréquent et bien connu des enquêteurs et statisticiens : que faire des
valeurs manquantes ? Il existe quatre possibilités :
supprimer la colonne,
ne pas prendre en compte la ligne,
codifier la donnée pour la signaler manquante,
évaluer cette valeur.
Les deux premières solutions sont à éviter car elles nous privent de données qui pourraient
être très importantes.
Repérer les données manquantes est une possibilité intéressante car ces absences peuvent
être significatives d'une population ou d'un comportement.
Habituellement la dernière solution est retenue. De nombreuses techniques statistiques et de
data mining permettent de faire des estimations fiables.
Quoi qu'il en soit, les valeurs manquantes méritent une attention particulière, surtout si elles
sont nombreuses. Dans ce dernier cas, les estimations ne seront pas fiables et les résultats de
l'analyse par les techniques de data mining seront faussées !
C'est la dernière étape : il s'agit d'appliquer le modèle informatique aux données réelles pour
voir comment les hypothèses se vérifient. Même si nous posons une question qui paraît
demander la réponse oui ou non comme "est-ce que les femmes répondent mieux à telle
offre commerciale ?", les résultats devront être évalués et interprétés : comment quantifier la
différence ? Est-elle significative ? Si oui, faut-il concevoir deux offres différentes ? Les
hommes représentent-ils une part importante pour ce marché ?
L'exploitation correcte des résultats de l'exploitation des données demande en même temps
des connaissances analytiques et spécifiques au domaine. Si personne ne possède toutes ces
connaissances à la fois, il faudra une coopération entre les divers spécialistes.
19.1.2 - SYNTHESE
Pour mettre en œuvre une méthode de data mining dans le cadre du test d'hypothèse, la
méthodologie est la suivante :
A chaque règle est associé un indicateur de confiance (ici : nombre de personnes ayant
acheté riz, vin blanc et poisson divisé par le nombre de personnes ayant acheté riz et vin
blanc) qui permet de quantifier la fiabilité de la règle. Une valeur de 0.84 signifie que 84 %
des gens qui ont acheté du riz et du vin blanc ont acheté du poisson.
Ce critère n’est pas suffisant car il faut en outre que l’effectif soit significatif. En effet, si
une règle ne concerne qu’un ou deux individus même avec 100 % de confiance, elle devra
être rejetée car non suffisamment significative.
Les règles d’association peuvent également se dérouler dans le temps : telle action à un
instant t entraînera tel résultat à un autre instant. Il faut alors posséder suffisamment de
données historisées pour avoir une bonne fiabilité des résultats. La technique qui consiste à
prévoir le comportement d’une variable dans le temps en fonction du passé s’appelle le
« forecasting ».
Les processus de découvertes de connaissances sont basés sur le fait que la connaissance ou
la réponse aux questions que l'on se pose se trouve dans les données. Par conséquent, la
qualité des données est la première exigence de ce type d'analyse.
L'idéal est de travailler à partir des données archivées dans l'entreprise. Mais celles-ci sont
prévues généralement pour la production, avec des formats adaptés aux meilleurs temps de
réponse, voire même conservés sur des bandes magnétiques.
Il va donc falloir identifier les données, les localiser, identifier les formats et codages, … Un
travail organisationnel et logistique important est nécessaire pour disposer des données sous
une forme utile en vue de la découverte de connaissances.
Après le travail de repérage et d'identification décrit dans l'étape précédente, il faut préparer
les données pour l'analyse. Cette étape est de loin la plus importante car la qualité des
résultats obtenus est très fortement liée à la qualité de cette préparation.
C'est la première étape qui consiste à regrouper, rapatrier, transcoder, transformer les
données. Il faut faire face aux incompatibilités entre les différents systèmes informatiques
de l'entreprise, importer les données externes, regrouper l'ensemble dans un format propice
à l'exploitation par une application de data mining.
Enfin, il est souvent utile de rajouter des champs supplémentaires, issus de résultats de
calculs ou transformations depuis des champs existants. Ceci est particulièrement vrai si l'on
cherche des relations entre champs ou pour suivre des évolutions dans le temps. A titre
d'exemple, on pourrait citer :
Ces travaux sont prévus voire automatisés dans le cadre de la mise en œuvre d'un data
warehouse.
Une fois les données obtenues, il va falloir les distribuer en trois parties :
Ensemble d'apprentissage
Ensemble de test
Ensemble d'évaluation
Ces trois ensembles devront être distincts (n'avoir aucun enregistrement en commun).
L'ensemble d'apprentissage est utilisé pour construire le modèle initial. C'est depuis cet
ensemble que le système va calculer ses différents paramètres.
Une fois les paramètres calculés, il faut vérifier comment ils se comportent sur l'ensemble
de test. Celui-ci va permettre d'ajuster les valeurs trouvées à l'étape précédente et les rendre
moins sensibles à l'ensemble d'apprentissage.
Enfin, les paramètres seront testés sur l'ensemble d'évaluation. Si les résultats obtenus sont
proches de ceux attendus, on pourra alors valider le système. Dans le cas contraire, il faudra
analyser les raisons de cette différence. Pour mesurer la validité des résultats obtenus, on
utilisera les outils statistiques traditionnels (le khi2 par exemple).
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 162
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
Il n'existe pas de réponse simple à cette question. Dans certains cas, on utilisera les
méthodes statistiques d'échantillonnage pour constituer ces ensembles. Cependant, surtout si
l'on se trouve dans un contexte de data warehouse, il est préférable de prendre de grands
volumes (au moins 10 000 enregistrements) pour être sûr que statistiquement l'ensemble est
représentatif (loi de la probabilité forte des grands nombres).
Dans une analyse statistique traditionnelle, il est fréquent de choisir les variables à analyser
pour tenter par exemple de déterminer la corrélation de l'une par rapport à une autre. De
même, on supprime souvent certains champs trop complexes ou insuffisamment alimentés
(valeurs absentes). Dans une approche de data mining, il est préférable de soumettre
l'ensemble des données et laisser l'outil déterminer lui-même les données utiles car les
champs absents ou complexes peuvent déboucher sur des connaissances importantes !
Enfin, il faut être vigilant dans la constitution des ensembles. Il faut se rappeler en
permanence que leur but n'est pas d'être représentatifs de la population d'origine mais qu'il
s'agit d'un ensemble d'apprentissage. C'est à partir de ces données que le système va se créer
ses règles et paramètres. Il est donc souvent utile de surdimensionner certains ensembles
utiles à l'apprentissage. Par exemple, une entreprise pourrait s'intéresser aux clients
susceptibles de répondre favorablement à une offre commerciale. Supposons que dans les
données historiques de l'entreprise seul 1 % des clients aient répondu favorablement à cette
offre. Il sera souhaitable d'augmenter significativement (au moins 10 %) cette population
pour que le logiciel d'exploitation puisse identifier facilement cette population et reconnaître
parmi les nouveaux clients ceux qui sont susceptibles d'être intéressés par cette offre. On
procédera de la même manière pour mettre en évidence toute population présentant un
profil intéressant pour l'entreprise : recherche de bons ou mauvais clients, de fraudeurs,
etc…
Dans cette étape se réalisent les premières opérations d'analyse de données (terme à
considérer dans son acception statistique). Il s'agit de rechercher la ou les techniques à
mettre en œuvre et réaliser / mettre en œuvre le programme.
La plus grande difficulté est de déterminer le volume d'apprentissage optimal. Pour ce faire,
il faut tester les données connues et inconnues. Si les données connues sont trop
importantes, on risque de trouver des paramètres d'estimation très précis sur cette
population mais qui donneront des valeurs très médiocres sur une population inconnue. Le
résultat sera similaire si le volume d'apprentissage est trop faible. Il faut donc trouver un
compromis, comme illustré sur la figure qui suit.
C'est la dernière étape : les nouvelles connaissances générées aux étapes précédentes
permettent de générer de nouvelles hypothèse, qu'il faut retravailler. Nous entrons ici dans
le cadre du test d'hypothèses.
19.2.1.2 - SYNTHESE
19.2.2.1 - METHODOLOGIE
19.2.2.2 - SYNTHESE
20 - L'EVALUATION
On a souvent tendance à négliger ou sous estimer les problèmes d'évaluation. L'entreprise
qui entreprend une démarche de data mining, surtout si elle est associée à la mise en œuvre
d'un data warehouse, engage des dépenses très importantes et attend par conséquent un
retour d'investissement.
Pour assurer la rentabilité finale d'un projet, il va falloir en mesurer l'efficacité tout au long
du processus. Chaque modèle, chaque règle doit être évalué, validé.
Une technique d'évaluation consiste à établir le rapport du résultat obtenu sur une
population ciblée (depuis un outil de data mining) par celui qui aurait été obtenu sur la
population totale. Ce rapport s'appelle taux de support ou taux de surconcentration. En fait,
il mesure l'amélioration. Mais ce rapport doit être pris avec précaution car il ne tient pas
compte de l'effectif de chaque classe : si l'on obtient un taux très élevé sur une population de
trois ou quatre individus statistique, la règle perd tout son attrait alors qu'une autre règle
avec un taux très faible peut avoir un impact bien plus important.
Si nous rajoutons les coûts liés à la mise en œuvre des solutions trouvées, quelle est
la meilleure solution ?
La manière la plus sage de raisonner en terme de data mining est de définir précisément
au préalable l'objectif de l'analyse. L'évaluation en sera d'autant plus aisée. Un objectif est
précis, chiffré et situé dans le temps. On saura si l'objectif est atteint que si ce dernier est
posé. Ceci paraît évident mais l'expérience montre que c'est loin d'être toujours le cas !
Idéalement, les outils ou critères de l'évaluation finale sont définis en même temps que
l'objectif.
L'analyse des liens est une technique de description qui s'inspire et repose sur la théorie des
graphes. Elle consiste à relier des entités entre elles (clients, entreprises, …) par des liens. A
chaque lien est affecté un poids, défini par l'analyse, qui quantifie la force de cette relation.
Cette technique peut être utilisée pour la prédiction ou la classification mais généralement
une simple observation du graphe permet de mener à bien l'analyse.
Les arbres de décision sont utilisés dans le cadre de la découverte de connaissances dirigée.
Ce sont des outils très puissants principalement utilisés pour la classification, la description
ou l'estimation. Le principe de fonctionnement est le suivant : pour expliquer une variable,
le système recherche le critère le plus déterminant et découpe la population en sous
populations possédant la même entité de ce critère. Chaque sous population est ensuite
analysée comme la population initiale. Le modèle rendu est facile à comprendre et les règles
trouvées sont très explicites. Ce système est donc très apprécié.
Les réseaux de neurones représentent la technique de data mining la plus utilisée. Pour
certains utilisateurs, elle en est même synonyme. C'est une transposition simplifiée des
neurones du cerveau humain. Dans leur variante la plus courante, les réseaux de neurones
apprennent sur une population d'origine puis sont capables d'exprimer des résultats sur des
données inconnues. Ils sont utilisés dans la prédiction et la classification dans le cadre de
découverte de connaissances dirigée. Certaines variantes permettent l'exploration des séries
temporelles et des analyses non dirigées (réseaux de Kohonen). Le champ d'application est
très vaste et l'offre logicielle importante.
Cependant, on leur reproche souvent d'être une "boite noire" : il est difficile de savoir
comment les résultats sont produits, ce qui rend les explications délicates, même si les
résultats sont bons.
Les algorithmes génétiques sont utilisés dans la découverte de connaissances dirigée. Ils
permettent de résoudre des problèmes divers, notamment d'optimisation, d'affectation ou de
prédiction. Leur fonctionnement s'apparente à celui du génome humain. Le principe de
fonctionnement est le suivant : les données sont converties en chaînes binaires (comme les
chaînes d'ADN - acide désoxyribo nucléique-). Celles-ci se combinent par sélection,
croisement ou mutation et donnent ainsi une nouvelle chaîne qui est évaluée. En fonction du
résultat, les chaînes les plus faibles cèdent leur place aux plus fortes. Cette technique est
particulièrement intéressante pour résoudre des problèmes d'affectation ou des problèmes
sur lesquels on peut poser une fonction d'évaluation car elle peut trouver des solutions
optimisées parfois inexistantes dans les données d'origine.
Les agents intelligents ou Knowbot sont des entités logicielles autonomes dont les plus
récentes versions s'intègrent tout à fait dans le processus de data mining. Certains iront
jusqu'à les considérer comme des outils de data mining. Certains d'entre eux, les plus
élaborés, sont capables de suivre et mémoriser les mouvements, visites et achats sur Internet
et permettent d'élaborer des profils d'utilisateurs pour leur faire des offres commerciales "un
à un (one to one) ". L'utilisateur peut, quant à lui, lancer des appels d'offres et mises en
concurrence automatiquement gérés par ces agents.
Pour terminer ce tour d'horizon, nous évoquerons ici le TAEL (traitement analytique en
ligne) car bien que ne faisant pas partie du data mining, il s'agit d'outils d'analyse de
données souvent utiles en préalable au data mining. Le TAEL est une manière de présenter
aux utilisateurs les données relationnelles afin de faciliter la compréhension des données et
des formes importantes qu'elles recèlent. Ces outils s'appuient sur OLAP, ROLAP, et
MOLAP.
22.1 - PRESENTATION
22.2 - UTILISATION
L'analyse du panier de la ménagère est utilisée pour découvrir des règles d'association et son
but principal est donc descriptif. Dans la mesure ou les résultats peuvent être situés dans le
temps, cette technique peut être considérée comme prédictive. On utilise souvent cette
technique comme point de départ d'une analyse car les règles exprimées sont claires et
explicites pour l'utilisateur métier. Lorsqu'une règle est identifiée comme intéressante à
exploiter, on se tourne alors vers un processus de test d'hypothèses ou de découverte dirigée
pour mieux explorer les données, mais en faisant appel à d'autres techniques.
22.3 - FONCTIONNEMENT
Une lecture sur la diagonale (fond jaune) permet de connaître le nombre d'unités
vendues de chaque article,
L'article le plus vendu est le jus d'oranges,
Le jus d'oranges et l'eau minérale sont plus vendus ensembles que tout autre couple
d'articles,
Le lait n'est jamais acheté en même temps que l'eau minérale ou le détergent,
Le détergent n'est jamais acheté en même temps que le nettoyant vitres ou le
détergent.
La lecture du tableau (ou son traitement informatique) permet de générer les premières
règles. Il suffit de chercher les valeurs les plus élevées, non situées sur la diagonale pour
formuler les règles du type : si achat <produit en ligne>, alors achat <produit en colonne>.
Dans notre exemple, on pourra dire :
Mais ces règles ne signifient que peu de choses si on ne leur associe pas une métrique de
probabilité ou d'espérance. Pour l'analyse du panier de la ménagère, cette métrique s'appelle
le niveau de confiance. On utilise également les statistiques.
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 173
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
La règle utile contient une information de qualité, exploitable. Elle est généralement facile à
justifier et à comprendre. Si elle est retenue, elle débouche rapidement vers une action.
La règle triviale ressemble aux Lapalissades. Elle souligne des évidences ou le résultat
d'actions précédentes. Elles ont la particularité d'avoir des taux de confiance élevés. Ce sont
des règles valides, avérées sur des volumes importants mais totalement inexploitables et
inutiles. Exemples :
Les règles inexplicables sont difficiles à exploiter directement. Par exemple : "si nouvelle
quincaillerie alors achat abattants de toilettes". Les explications possibles sont nombreuses
mais une enquête complémentaire est nécessaire à la compréhension de la règle : l'article
est-il bien en vue lors de l'ouverture puis caché ensuite ? Le résultat est-il propre à certains
magasins ? L'article est-il difficile à trouver ? …
Utiles,
Triviales,
Inexplicables.
22.5.1 - LA TAXINOMIE
Un supermarché gère environ 100 000 références différentes. Si l'on devait appliquer
l'analyse sur tous les articles, cela représenterait un tableau des cooccurrences de 10
milliards (100 000²) de cellules à alimenter pour seulement des associations de deux articles
! Il faudrait donc des espaces disques importants (capacités en téra-octets) et des temps de
traitements en conséquence. Tout cela n'est aujourd'hui pas très raisonnable et les coûts
induits seraient importants. Pour palier à ce problème, on applique la taxinomie (on utilise
également le terme de taxonomie) : cela consiste à regrouper les articles, à les généraliser
sous un même terme générique, une même rubrique : les chocolats noirs, au lait, de
différentes marques, aux noisettes, allégés, etc… seront tous regroupés sous le terme
chocolat.
Pour améliorer la performance du système, il est fréquent de rajouter des articles virtuels.
Cela peut représenter des informations transversales pour regrouper les articles d'une autre
manière que la taxinomie : produits allégés, produits issus de l'agriculture biologique ou une
marque que l'on pourrait trouver dans plusieurs rubriques. On utilise également les articles
virtuels pour donner des indications supplémentaires sur la transaction : donnée temporelle
(jour de la semaine, heure, mois, saison, …), mode de paiement, météo, … et si possible des
données sur le client (satisfaction, type d'habitat, catégorie socioprofessionnelle, âge, statut
matrimonial, etc …). Ce type d'article fournit des règles du type : "si printemps et jardin
alors achat de gants de jardinage".
Une règle de dissociation est analogue à une règle d'association mais elle fait apparaître la
notion de "non". Supposons que dans une entreprise, cinq produits (A,B,C,D,E) soient
proposés aux clients. Si un client prend les produits A,B et D, alors il générera la transaction
{A,B,non C,D et non E}. Ce procédé génère des règles comme : "si achat du produit A et du
produit C alors non achat du produit E". L'inconvénient majeur de cette technique est qu'il
fournit des règles où tout est nié : "si non A et non B alors non C". Les connaissances
générées sont alors peu exploitables et débouchent rarement sur des actions concrètes.
L'analyse du panier de la ménagère n'est pas le meilleur outil pour étudier les séries
temporelles. L'objet est bien de faire de la description et non de la prévision.
La seule contrainte est de disposer dans les données d'une information de temps ainsi qu'une
clé d'identification de l'objet (principalement le client). La difficulté va alors consister à
transformer les données en transactions. Plusieurs possibilités sont offertes :
Comme nous l'avons indiqué dans le chapitre sur l'évaluation (voir page 167), l'évaluation
doit être un souci permanent. Pour évaluer cette technique, plusieurs indicateurs
complémentaires sont utilisés.
22.6.1 - LA FREQUENCE
Ces règles portent sur des effectifs respectifs de 1 et 2 individus. Elles sont donc très
relatives, malgré un très bon taux de confiance.
Que vaut une règle si son taux de confiance est inférieur à la fréquence du résultat sans
condition ? Nous avons la règle : "si achat d'eau minérale, alors achat de jus d'orange".
Cette règle est vraie pour 2 clients sur les trois qui ont acheté de l'eau. Le taux de confiance
pour l'achat du jus d'orange dans ces conditions est donc de 2/3, soit 66%. Or 4 clients sur 5
achètent du jus d'orange, soit 80% ! Cette règle ne sera donc pas intéressante à exploiter car
elle rajoute une condition pour un taux moins bon.
Pour mesurer l'amélioration apportée par la règle, on va donc diviser le taux de confiance
par la fréquence de l'événement, soit ici : 0.66 / 0.80 = 0.83 (ou 83 %)
Si le résultat est supérieur à 1, cela signifie que la règle (ou plus précisément le respect de la
condition) apporte une amélioration sur le résultat. Dans le cas contraire, il faut renoncer à
l'exploiter.
22.10 - SYNTHESE
23.1 - PRESENTATION
23.2 - UTILISATION
Le RBM s'adapte bien aux bases de données relationnelles, qui sont les plus courantes dans
le domaine de gestion. Sa mise en œuvre est simple, ce qui en fait un outil apprécié. On peut
l'utiliser pour estimer des éléments manquants, détecter des fraudes, déterminer le meilleur
traitement d'un malade, prédire si un client sera intéressé ou non par telle offre, ou pour
classifier les réponses en texte libre. La police Américaine a utilisé cette méthode
récemment pour identifier (efficacement dans le cas présent) un criminel. En fonction des
indices, un criminel virtuel a été créé. Présenté par le RBM à une base de criminels connus,
celui-ci s'est retrouvé positionné près du véritable criminel !
23.3 - FONCTIONNEMENT
60
55
50
45
Age
40
35
30
25
20
0 1 2 3 4 5
Nom bre d'enfants
V e n t e s d e v o it u r e s R e n a u lt
60
55 3
50
45
Age
1
40
35
30
25 2
20
0 1 2 3 4 5
N o m b r e d 'e n f a n t s
La fonction de distance mesure l'éloignement du nouvel item avec ceux déjà connus dans la
base. De nombreuses possibilités sont offertes mais la fonction distance doit respecter les
règles suivantes :
Pour les données numériques, les trois fonctions de distance les plus courantes entre une
valeur A et une valeur B sont :
L'avantage de la valeur absolue normalisée est qu'elle se trouve toujours entre 0 et 1, ce qui
supprime les problèmes d'échelles.
Pour les autres types de données, c'est à l'utilisateur de définir sa propre fonction de
distance. Par exemple, pour comparer le sexe d'un individu, on pourra affecter la valeur 1
s'ils sont de sexe différent ou la valeur 0 s'ils sont identiques (voir règle de l'identité). Pour
une catégorie socioprofessionnelle, il suffit de créer une métrique. Pour des communes,
pourquoi ne pas prendre la distance entre elles ou affecter une codification en fonction du
type (urbaine, périurbaine, rurale) ou de la région. Il est toujours préférable de faire une
codification dont le résultat se situera entre 0 et 1.
La fonction de combinaison consiste à combiner les n voisins les plus proches pour obtenir
le résultat de la prédiction souhaitée. Sa mise en œuvre sera plus significative au travers de
l'exemple qui suit.
23.5 - EXEMPLE
Pour notre exemple, considérons une liste de clients ayant déjà répondu à une offre
commerciale (par oui ou non). L'utilisateur métier estime que les critères les plus
déterminants sont le sexe, l'âge et le salaire net du dernier semestre. Soit la liste suivante de
clients identifiés :
La fonction de distance est définie ainsi : il s'agit d'une femme, donc la distance par rapport
aux clients connus sera de 1 avec les hommes et de 0 avec les femmes. A ce chiffre, on
ajoute la distance normalisée du salaire et de l'âge, ce qui donne les tableaux des distances
suivants :
Il est préférable de prendre un nombre impair car la réponse ne peut prendre que 2 valeurs
et on évite ainsi les réponses incertaines (cas de 2 voisins).
Si nous ne retenons que les trois voisins les plus proches, la réponse sera favorable avec une
probabilité (ou plutôt une espérance) de 66%.
Il aurait été possible également de donner un poids à chaque contribution. Par exemple le
premier voisin le plus proche aurait un poids de 3, le second un poids de 2 et le troisième un
poids de 1. On peut également affecter des poids à chaque variable utilisée dans la fonction
de distance.
23.8 - SYNTHESE
24.1 - PRESENTATION
24.2 - UTILISATION
L'objectif de cette technique est de procéder à une classification du type regroupement par
similitude. Chaque groupe est appelé cluster. C'est une technique très puissante et son
champ d'application est important. Une utilisation classique consiste à clusteriser une
population puis, après étude de chaque cluster, faire une offre commerciale tout à fait
adaptée à la population.
24.3 - FONCTIONNEMENT
Pour utiliser une des méthodes de détection de clusters, il faut prévoir une fonction de
distance qui mesure l'écart entre deux enregistrements (voir paragraphe 23.4.1 - page 183).
La grande difficulté de cette technique est de trouver une fonction de mesure de distance
performante. Cela ne semble poser aucun problème à priori pour des variables numériques.
Pourtant le nombre de possibilités est important : distance Euclidienne, mesure de l'angle,
sommation, sommation normalisée, …pondéré, avec changement de repère, d'échelle,
centré et réduit … La complexité devient plus importante pour des valeurs énumératives
non ordonnées. Si aucune métrique n'est possible, il est courant de prendre une distance
égale à 0 si les variables sont identiques et 1 dans le cas contraire. D'autres solutions
consistent à prendre le nombre de mots communs dans un champs texte par exemple.
24.5 - EXEMPLES
Le même exemple et problème est utilisé pour illustrer les deux techniques. A des fins
pédagogiques, celui-ci sera simple : classifier des individus selon leurs âges. Soit une liste
aléatoire d'individus dont les âges sont les suivants :
27 - 51 - 52 - 33 - 45 - 22 - 28 - 44 - 40 - 38 - 20 - 57
Fixons K=3. Les 3 premières graines prennent les trois premières valeurs. Calculons la
distance (ici distance = différence / (amplitude maximum) = différence / 37) entre chaque
point et chaque graine, puis affectons au plus près. Cela nous donne le tableau suivant :
27 51 52 33 45 22 28 44 40 38 20 57
Graine 27 0.00 0.65 0.68 0.16 0.49 0.14 0.03 0.46 0.35 0.30 0.19 0.81
Graine 51 0.65 0.00 0.03 0.49 0.16 0.78 0.62 0.19 0.30 0.35 0.84 0.16
Graine 52 0.68 0.03 0.00 0.51 0.19 0.81 0.65 0.22 0.32 0.38 0.86 0.14
Minimum 0 0 0 0.16 0.16 0.14 0.03 0.19 0.3 0.3 0.19 0.14
Affectation 1 2 3 1 2 1 1 2 2 1 1 3
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 189
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
Graine 1 (27) : 27 - 33 - 22 - 28 - 38 - 20
Graine 2 (51) : 51 - 45 - 44 - 40
Graine 3 (52) : 52 - 57
Pour le calcul des nouveaux centroïdes, prenons la moyenne arithmétique de chaque cluster,
soit 28 pour la graine 1, 45 pour la graine 2 et 54.5 pour la graine 3. Ces valeurs
représentent les positions des nouvelles graines. Recommençons le processus de calcul de
distance par rapport à ces nouvelles valeurs. Cela donne le tableau suivant :
27 51 52 33 45 22 28 44 40 38 20 57
Graine 28 0.03 0.62 0.65 0.14 0.46 0.16 0 0.43 0.32 0.27 0.22 0.78
Graine 45 0.49 0.16 0.19 0.32 0 0.62 0.46 0.03 0.14 0.19 0.68 0.32
Graine 54.5 0.74 0.09 0.07 0.58 0.26 0.88 0.72 0.28 0.39 0.45 0.93 0.07
Minimum 0.03 0.09 0.07 0.14 0 0.16 0 0.03 0.14 0.19 0.22 0.07
Affectation 1 3 3 1 2 1 1 2 2 2 1 3
Tableau 45 : calcul des distances entre chaque point et les nouvelles graines (centroïdes)
En réitérant le processus, nous voyons qu'il ne modifie plus les affectations. Les clusters
sont donc finalisés :
27 - 51 - 52 - 33 - 45 - 22 - 28 - 44 - 40 - 38 - 20 - 57
Pour la méthode par agglomération, il faut faire la demie matrice (car la fonction distance
est commutative) des distances des éléments deux à deux :
27 51 52 33 45 22 28 44 40 38 20 57
27 0.00 0.65 0.68 0.16 0.49 0.14 0.03 0.46 0.35 0.30 0.19 0.81
51 0.65 0.00 0.03 0.49 0.16 0.78 0.62 0.19 0.30 0.35 0.84 0.16
52 0.68 0.03 0.00 0.51 0.19 0.81 0.65 0.22 0.32 0.38 0.86 0.14
33 0.16 0.49 0.51 0.00 0.32 0.30 0.14 0.30 0.19 0.14 0.35 0.65
45 0.49 0.16 0.19 0.32 0.00 0.62 0.46 0.03 0.14 0.19 0.68 0.32
22 0.14 0.78 0.81 0.30 0.62 0.00 0.16 0.59 0.49 0.43 0.05 0.95
28 0.03 0.62 0.65 0.14 0.46 0.16 0.00 0.43 0.32 0.27 0.22 0.78
44 0.46 0.19 0.22 0.30 0.03 0.59 0.43 0.00 0.11 0.16 0.65 0.35
40 0.35 0.30 0.32 0.19 0.14 0.49 0.32 0.11 0.00 0.05 0.54 0.46
38 0.30 0.35 0.38 0.14 0.19 0.43 0.27 0.16 0.05 0.00 0.49 0.51
20 0.19 0.84 0.86 0.35 0.68 0.05 0.22 0.65 0.54 0.49 0.00 1.00
57 0.81 0.16 0.14 0.65 0.32 0.95 0.78 0.35 0.46 0.51 1.00 0.00
Tableau 46 : tableau des distances entre chaque point
Positionnons un seuil à 10% (0.1) à chaque itération. Ainsi, nous aurons au maximum 10
étages. Ce seuil est fixé aléatoirement en fonction du niveau de regroupement souhaité par
l'utilisateur. L'ensemble des valeurs est ordonné en ordre croissant. Pour la première
itération, nous ne prenons que les valeurs ayant un seuil inférieur à 10%, soit :
0.03 (52-51), 0.03 (27-28), 0.03 (44-45), 0.05 (38-40), 0.05 (20-22)
51 52 27 28 44 45 38 40 20 22 33 57
Tableau 47 : premières agglomérations
chaque cluster ainsi formé est représenté par son centroïde (ici nous prendrons la moyenne),
ce qui nous donne la nouvelle série suivante :
Nous recommençons le processus avec cette nouvelle série et le seuil de 20% (0.20).
0.15 (33-27.5), 0.15 (57-51.5), 0.15 (39-44.5)), 0.17 (33-39), 0.18 (21-27.5), 0.19 (44.5-
51.5)
Les liens 33-39 et 44.5-51.5 sont pris en compte au niveau 3 car il relie des groupes déjà
reliés par des prédécesseurs. Cela nous donne le graphe suivant :
20 22 27 28 33 38 40 44 45 51 52 57
Tableau 49 : deuxième et troisième niveau d'agrégation.
Une autre solution aurait pu consister à grouper les éléments entre eux en prenant dans
l'ordre croissant les distances. Cela donnerait le graphe suivant :
20 22 27 28 33 38 40 44 45 51 52 57
Tableau 50 : fin de la construction de l'arbre.
Dans l'exemple présent, cela donne sensiblement le même graphe mais il peut être très
différent.
24.6 - EVALUER
Lorsque les clusters sont déterminés, par la méthode des K-moyennes, il faut évaluer la
qualité de chaque cluster. L'intérêt de la technique est de regrouper des populations
statistiques avec le plus grand degré de similarité. Une solution possible consiste à étudier la
variance de la distance de cette population. Un cluster solide sera constitué d'une population
significative et d'une variance faible.
Si la population d'un cluster est trop faible, il pourrait être valable de grouper ce cluster avec
un autre.
Si un cluster est trop dominant, il sera préférable de scinder la population en deux (dans et
hors cluster) et de relancer le processus pour chaque sous groupe.
24.9 - SYNTHESE
25.1 - PRESENTATION
Les algorithmes génétiques représentent une technique dont la vocation principale est
l'optimisation, mais on peut également les utiliser pour des prédictions ou classifications.
Leur champ d'application est très large. C'est une technique récente : les premiers travaux
datent de la fin des années 50 où biologistes et informaticiens ont coopéré pour modéliser
les mécanismes génétiques sur ordinateurs. Mais c'est surtout au début des années 60 que
John Holland développa ses travaux de recherche sur ce thème. Le terme d'algorithme
génétique, quant à lui, date de 1967, tandis que l'algorithme date de 1975. Ces concepts
étaient mal perçus car à cette époque régnait la recherche opérationnelle capable de trouver,
par définition, la meilleure solution, tandis que les algorithmes génétiques se basent sur un
processus aléatoire dont l'objectif est de trouver une meilleure solution que celle en cours.
Actuellement peu de produits commerciaux proposent ces algorithmes. En fait ils sont
intégrés de manière transparente pour optimiser l'apprentissage des réseaux de neurones.
25.2 - UTILISATION
Les algorithmes génétiques trouvent de nombreux domaines d'applications. Ils sont utilisés
dans l'industrie pour optimiser ou contrôler les processus (pression d'un cylindre,
température d'un four, etc…), dans le domaines spatiaux (choix des meilleures
implantations d'un distributeur automatique de billets de banque), dans le domaine
marketing (choix des meilleurs candidats à une offre) mais on les trouve surtout dans le data
mining où ils vont optimiser les performances des systèmes : modifier les paramètres d'une
régression, optimiser les poids des liaisons d'un réseau neuronal, isoler les variables qui
permettent le mieux d'interpréter le comportement des clients dans un arbre de décision.
25.3 - FONCTIONNEMENT
Les algorithmes génétiques sont basés sur les principes de Darwin dans ce domaine. Les
chromosomes (à la base des théories sur l'hérédité et l'évolution) sont formés de brins
d'ADN (acide désoxyribonucléique). Ceux-ci sont porteurs d'informations sur toutes les
caractéristiques des individus (couleur des yeux, forme des lèvres, maladies héréditaires,
tares, …). Lors du processus de reproduction, les gènes se combinent entre eux et les gènes
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 195
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
les plus faibles ou les moins biens adaptés tendent à disparaître. Ceci rend les nouveaux
individus plus aptes à évoluer dans leur environnement. Il arrive également que certains
gènes se combinent mal et aboutissent à des anomalies génétiques.
Les algorithmes génétiques s'inspirent du processus naturel décrit ci-dessus (voir § 25.3.1 -
). Le fichier de départ doit être codé par des 0 et des 1. Un nombre n de chromosomes est
fixé par le système. Ce nombre ne bougera plus. Pour initialiser le processus, on peut
prendre les n premiers enregistrements. Chaque chromosome est évalué par une fonction
adéquate. Cela donnera naissance à une nouvelle génération proportionnelle au résultat de
l'évaluation. Divers processus (mutation, croisement, …) seront mis en œuvre. Le système
choisira de manière aléatoire n nouveaux chromosomes parmi les descendants, ce qui
réinitialise le processus. Compte tenu de la méthode de calcul des descendants, les sujets
potentiellement les mieux adaptés ont plus de chances d'être choisis.
Pour pouvoir fonctionner correctement, les données doivent être codées sous forme d'une
séquence de 0 et de 1. Les données numériques sont codées en binaires tandis que les autres
variables sont codifiées sur un ou plusieurs codes élémentaires. Par exemple sexe peut être
codé 1 pour les femmes et 0 pour les garçons; nombre annuel de commandes peut être 00
pour aucune, 01 pour une ou deux, 10 pour trois ou quatre, et 11 pour 5 et plus, …
Il faut définir une fonction d'évaluation pour mesurer l'aptitude d'un enregistrement. C'est la
partie la plus délicate, comme nous l'avons déjà souligné au paragraphe 24.4 - page 189 . Il
faut trouver une fonction adéquate au problème posé et chaque cas est un cas particulier. Il
existe cependant deux techniques couramment utilisées. La première consiste à faire
l'évaluation compte tenu de cas analogues existants dans l'historique. La seconde consiste à
créer une fonction spécifique qui va retirer des points lorsque les contraintes ne sont pas
respectées.
000111011
9%
111100110
35%
011001001
44%
100101000
12%
L'effectif de la population est constant pour éviter une extinction ou un trop grand
développement. Par conséquent le nombre de descendants est toujours ramené à celui des
parents. Le processus de sélection est aléatoire. Chaque descendant prend une surface d'un
secteur du cercle proportionnel à son aptitude (résultat de la fonction d'évaluation). L'angle
représenté par chaque chromosome vaut donc 2xPIxfréquence (voir Tableau 51 page 197).
Sur le principe de la roue de la fortune, on procède au tirage aléatoire dans le cercle. Cette
valeur représentera le chromosome retenu. On veillera à éviter qu'une valeur ne domine pas
trop les autres, surtout pas trop vite car il faut conserver un minimum de diversité. En
procédant ainsi, les chromosomes les plus adaptés reçoivent une descendance plus
importante. Cette croissance des meilleures solutions sous la contrainte de la pression
sélective (selective pressure) conduit à une disparition progressive des solutions les moins
adaptées (ceci contribue à confirmer les théories de Darwin).
000111011
9%
111100110
35%
Valeur
retenue
011001001 La roue
44%
tourne
100101000
12%
Lorsque les descendants sont définis, on peut procéder à des manipulations sur ceux-ci. Il
existe trois types de manipulations : l'hybridation (ou croisement), la mutation ou
l'inversion.
25.4.5.1 - HYBRIDATION
25.4.5.2 - MUTATION
25.4.5.3 - INVERSION
50% à 60 % des descendants vont subir une manipulation. Afin d'obtenir de bonnes
performances, le taux d'hybridation est souvent élevé (80% du taux de manipulation).
Après les manipulations, le système choisit de manière aléatoire parmi tous les descendants
le nombre fixe de chromosomes (généralement faible, de l'ordre des unités). Le processus
recommence jusqu'à trouver une solution acceptable.
25.4.7 - SYNOPTIQUE
Choix des n
premiers
chromosomes
-1-
Génération des
descendants Evaluation des
chromosomes
-2-
Sélection (choix
pseudo-aléatoire) d'une
nouvelle génération de
n chromosomes
-3-
Manipulations
génétiques
(hybridation, inversion,
mutation)
Solution
acceptable ?
NON
OUI
Fin du
processus
25.5 - EXEMPLE
Pour illustrer cette technique, nous allons prendre un exemple simple. Nous cherchons à
maximiser une valeur numérique codée sur 8 caractères (de 00000000 à 11111111). Notre
fonction d'évaluation vaut f(x)=-x²+256x. Initialisons la procédure avec les 4 chromosomes
suivants, choisis au hasard : 00110011, 11001111, 00000111, 10101010 (soit 51, 207, 7 et
170)
L'évaluation de ces valeurs donne respectivement : 10455 - 10143 - 1743 - 14620
L'estimation moyenne est de 9240,25. La meilleure estimation correspond au point 170 (soit
en binaire 10101010). Calculons les descendants. La répartition sera la suivante :
Nous voyons que le chromosome le moins bien adapté disparaît. La génération des
descendants vaut : 00110011, 11001111, 10101010,10101010. Procédons maintenant aux
manipulations génétiques : croisons les descendants 2 et 3 à partir du quatrième caractère et
opérons une mutation sur le troisième caractère 4ème descendant et une inversion sur les
deuxième et troisième caractère du 1er descendant. Cela nous donne la génération suivante :
01010011,11001010,10101111,10001010. Evaluons cette nouvelle génération :
Nous constatons que la solution globale est meilleure (meilleur total) et que la solution
10001010 représentée par le 4ème descendant est la meilleure jusqu'à présent.
En réitérant ce processus, nous constaterions que les solutions convergent vers la meilleure
valeur assez rapidement.
25.8 - SYNTHESE
26.1 - PRESENTATION
26.2 - UTILISATION
Ces types d'agents ne relèvent pas du data mining puisqu'ils ne font que reproduire un
processus manuel. Cependant, avec le développement du commerce électronique sur le
Web, de nouveaux agents "commerciaux" (les conseillers électroniques), sont mis en place
et on peut tout à fait assimiler leurs fonctions aux tâches du data mining.
L'ouverture du commerce électronique (sur le Web) offre une nouvelle perspective pour les
agents intelligents. Ils peuvent exécuter les deux facettes d'une négociation : il existe des
agents vendeurs et des agents négociateurs.
Un agent négociateur parcourt une liste de vendeurs potentiels. Il diffuse une demande de
tarifs sur les sites visités. Par la même occasion, il fixe un délai à sa demande. Il gère les
réponses et se charge des relances. Enfin, il établit un rapport pour le demandeur.
L'utilisateur sélectionne le vendeur et l'agent se charge de l'envoi du bon de commande.
Etant donné qu'il existe plusieurs définitions pour le data mining, il est difficile de dire si le
Knowbot en fait partie ou non. Mais même si certains puristes ne l'intègrent pas, il s'inscrit
dans la périphérie. L'utilisation la plus fréquente du data mining est le domaine commercial
en vue de faire des offres individualisées aux clients potentiels. Il ne fait aucun doute que ce
type d'agent s'inscrit pleinement dans ce cadre.
26.5 - EXEMPLE
Actuellement des expériences sont en place aux Etats-Unis. Sur abonnement, un utilisateur
initialise le processus en remplissant un questionnaire sur ce qu'il aime et déteste. Par la
suite, tous les achats électroniques sont enregistrés et remontés vers la société détentrice du
système. Dans le même temps, par analogie de goûts et comportements, le système fait des
propositions individualisées au client. Ce type de service est consultable par exemple sur
http://www.firefly.com ou http://www.hotmail.com. Début 1998, la société Microsoft a
racheté la société hotmail (qui propose ce type de services) et dispose ainsi de 9 millions
d'abonnés. En mai 1998, la société firefly à été rachetée également par Microsoft. Ce dernier
envisage d'intégrer ce principe dans les versions futures de son navigateur (Internet
Explorer). L'intérêt de Microsoft pour ces technologies montre bien son enjeu stratégique et
commercial.
26.6 - SYNTHESE
Les agents intelligents ou Knowbot sont des entités logicielles autonomes dont
les plus récentes versions s'intègrent tout à fait dans le processus de data
mining. Certains iront jusqu'à les considérer comme des outils de data mining.
Certains d'entre eux, les plus élaborés, sont capables de suivre et mémoriser les
mouvements, visites et achats sur Internet et permettent d'élaborer des profils
d'utilisateurs pour leur faire des offres commerciales "un à un (one to one) ".
L'utilisateur peut, quant à lui, lancer des appels d'offres et mises en
concurrence automatiquement gérés par ces agents.
Cette évolution (tout comme celle du data mining) nous amènent à nous poser
des questions d'éthique et de respect de la vie privée.
27.1 - PRESENTATION
Les réseaux Bayésiens ont pour objectif la découverte des relations. Ils permettent en effet
la compréhension de certaines relations.
Leur fonctionnement est basé sur la théorie des graphes.
1 3 2
4 5
Figure 25 : un graphe
1 4 2
Graphe totalement connexe : il existe une arête entre chaque paire de nœuds.
1 2 3
27.2 - FONCTIONNEMENT
Un réseau Bayésien est un graphe orienté dans lequel les nœuds représentent les variables et
dans lequel les arêtes symbolisent les dépendances entre les variables. Il mesure la
probabilité d’apparition d’un événement connaissant le résultat observé sur d’autres
variables.
La mise en place d’un réseau Bayésien passe par les étapes suivantes :
Cette étape consiste à distinguer les variables discrètes et continues, puis à définir des
intervalles pour les variables continues.
C’est la détermination des variables d’entrée et de sortie, sachant qu’une variable de sortie
ne peut pas être une entrée pour une autre variable. La sélection s’effectue par un
classement d’après la mesure d’entropie dont la formule est la suivante
H(X) = ΣP(x)logP(X)
Cela consiste à mesurer la dépendance entre les nœuds puis à les classer par ordre
décroissant.
C’est le comptage des occurrences entre les nœuds afin d’établir les probabilités.
Bonne résolution,
Bonne visibilité,
Bonne découverte de relation.
Cette technique permet une très bonne résolution des problèmes basés sur les liens. Elle
peut être utilisée dans les domaines du transport, des télécommunications, …
De par son coté graphique, elle donne une bonne visualisation des résultats et met en
évidence les relations entre les différents éléments.
Une fois les liens analysés, de nouveaux critères de décision peuvent être mis en place.
Mauvaise adaptation,
Peu d’outils,
Mauvaise performance.
Cette technique engendre de nombreuses lectures et de nombreux calculs, dus aux multiples
combinaisons possibles ce qui la rend très consommatrice de puissance machine.
28.1 - PRESENTATION
28.2 - FONCTIONNEMENT
Un arbre de décision est composé :
1 Noeud racine
5
4 Noeuds feuilles
Le jeu de questions et réponses est itératif jusqu’à ce que l’enregistrement arrive à un nœud
feuille.
Afin de déterminer quelle variable doit être affectée à chaque nœud, la technique applique
un algorithme sur chacun des paramètres et conserve le plus représentatif d’un découpage
28.2.1 - CART
Cet algorithme a été publié en 1984 par L.Briemen. Il est utilisé dans de nombreux outils du
marché.
Processus
La première bifurcation est celle qui divise le mieux les enregistrements en groupes. Ainsi
pour déterminer le critère qui effectuera le meilleur partage entre les éléments, un indice de
diversité est calculer, selon la formule suivante :
Nœud racine
Féminin Masculin
80 % 20 %
Nœuds intermédiaires
Une fois la première bifurcation établie, nous avons donc le nœud racine qui se sépare en
deux. L’étape suivante est donc de développer l’arbre complet en divisant de la même façon
les nouveaux nœuds crées, et ainsi de suite tant que le résultat de la division a une valeur
significative. Le dernier nœud étant le nœud feuille qui donne le classement final d’un
enregistrement.
L’arbre résultant n’est pas obligatoirement le meilleur, la prochaine étape est de calculer le
taux d’erreur pour chaque nœud. Si nous supposons que 11 enregistrements sur 15 sont
classés correctement d’après l’ensemble d’apprentissage, la probabilité pour ce nœud est de
11/15 soit 0,7333. Le taux d’erreur attribué est de 1 – 0,7333 = 0,2667.
Le calcul du taux d’erreur de chaque nœud étant fait, il est possible de calculer le taux
d’erreur de l’arbre entier soit :
Soit dans l’exemple, avec un taux d’erreur de (15/17) pour le nœud Masculin
((11/15) * 0,80) + ((15/17) * 0,20) = 0,763
Le danger de l’arbre de décision, tel qu’il est constitué à l’issue du premier passage, est que
certains nœuds feuilles ne contiennent pas suffisamment d’enregistrements pour être
significatifs. Il faut élaguer, le plus complexe étant de trouver la bonne limite à appliquer.
Le choix des branches à supprimer, se fait par l’intermédiaire du taux d’erreur ajusté d’un
arbre qui se calcule, sur chaque sous arbre possible, comme suit :
Un premier sous arbre est candidat lorsque son taux d’erreur ajusté devient plus petit ou
égal au taux d’erreur ajusté de tout l’arbre. Toutes les branches, qui n’en font pas partie,
sont élaguées, et le processus recommence ainsi de suite jusqu’au nœud racine.
Il faut donc maintenant choisir parmi tous les sous arbres candidats. Pour cela, chaque sous
arbre va être exécuter avec un ensemble de test, celui qui aura le plus petit taux d’erreur sera
considéré comme le meilleur.
Enfin pour contrôler l’efficacité du sous arbre sélectionné, un ensemble d’évaluation va lui
être soumis. Son taux d’erreur obtenu donnera une estimation des performances de l’arbre.
28.2.2 - C4.5
Algorithme développé par J.Ross Quinlan. La version intérieure s’appelait ID3, et est
encore utilisée dans quelques produits.
Nous allons étudier ici les différences entre C4.5 et CART étant donné les nombreuses
similitudes entre ces deux algorithmes.
Contrairement à CART qui génère des sorties binaires, C4.5 accepte plusieurs valeurs à
l’issue d’un nœud.
Au lieu d’utiliser l’indice de diversité comme méthode d’affectation des bifurcations, C4.5
utilise le gain informationnel total.
28.2.2.3 - ELAGAGE
C4.5 n’utilise pas d’ensemble de test, il élague son arbre à partir des données
d’apprentissage en considérant que le taux d’erreur réel sera sensiblement pire, ce qui le
conduit parfois, lorsque les nœuds comportent peu d’enregistrements, à supprimer des sous-
arbres complets.
C4.5 déduit de l’arbre de décision un ensemble de règles, qui facilite son interprétation.
Exemple :
Regarde le match et son équipe gagne et sort avec des amis alors bière
Regarde le match et son équipe gagne et reste à domicile alors soda
Regarde le match et son équipe perd et sort avec des amis alors bière
Regarde le match et son équipe perd et reste à domicile alors lait
En étudiant ces règles, on se rend compte qu’il est possible de simplifier, car le fait que son
équipe gagne ou perde n’influe pas sur le résultat qui est bière.
Une des nouvelles règles est donc
Regarde le match et sort avec des amis alors bière.
28.2.3 - CHAID
Algorithme publié en 1975 par J.A. Hartigan. Il est utilisé dans les progiciels tels que SPSS
et SAS.
Comme pour CART et C4.5, nous allons étudier les différences entre CHAID et les deux
algorithmes vus précédemment.
Tout d’abord, CHAID utilise pour choisir les bifurcations le test du chi-2, que l’on ne
détaillera pas ici.
Et enfin, contrairement aux autres il ne développe pas l’arbre complet, pour ensuite
l’élaguer, mais tente dès le premier passage de limiter sa croissance.
Il faut définir la nature, le format des variables et leur méthode de traitement. Ces variables
peuvent être catégoriques non ordonnées (exemple : situation de famille) ou catégoriques
ordonnées (exemple : tranches de revenus) ou encore continues.
L’enrichissement des données englobe différentes techniques afin de faciliter la lecture des
données pertinentes. Il est possible d'introduire une organisation en classes ou une typologie
ou encore des variables combinées.
Il est aussi possible d’introduire une typologie d’après certaines caractéristiques des
variables analysées (familles branchés, ).
Simplicité d’utilisation,
Bonne lisibilité,
Bonne adaptation aux données.
L’utilisation des produits conçus sur la technique des arbres de décision est très simple car
elle est très visuelle et très intuitive, ce qui la rend abordable pour les utilisateurs.
Mauvaise performance
Coût d’apprentissage
Le fait de devoir calculer pour chaque nœud, le meilleur critère lors du premier passage puis
ensuite lors de l’élagage alourdit les calculs.
29.1 - PRESENTATION
Le fonctionnement d’un réseau de neurones est inspiré de celui du cerveau humain. Il reçoit
des impulsions, qui sont traitées, et en sortie d’autres impulsions sont émises pour activer
les muscles.
Nous nous intéresserons ici aux réseaux à apprentissage supervisé. Le réseau est construit à
partir de cas connus (telles données en entrée doivent fournir tel résultat).
29.2 - FONCTIONNEMENT
Les composants sont :
Le neurone formel,
Une règle d’activation,
Une organisation en couches,
Une règle d’apprentissage.
Le neurone formel calcule la somme pondérée par son poids de chaque entrée transmise par
le reste du réseau = Σ(Xi * Wi)
W1
X1
Xn
Wn
A chaque neurone formel du réseau est associé une règle d’activation avec une fréquence T
et une fonction, généralement sigmoïde, qui a pour résultat d’activer ou non le neurone de
sortie.
W1
X1
Fonction Sortie
Xn
Wn
W1
X1
U1
X2
Xn
Un
Wn
La règle d’apprentissage permet au réseau d’évoluer dans le temps en tenant compte des
expériences antérieures. Les poids des connexions sont modifiés en fonction des résultats
précédents afin de trouver le meilleur modèle par rapport aux exemples donnés.
Nous ne détaillerons que les trois premières étapes, les étapes suivantes ne présentant pas de
spécificité par rapport à une mise en place informatique classique.
La préparation des données consiste à déterminer les entrées et les sorties, constituer la base
d’exemples, coder les entrées et enfin optimiser le jeu de données.
Il n’y a pas de règles en la matière, tout dépend du problème à traiter et des informations
disponibles.
Le choix des exemples conditionne, bien entendu les résultats. Le but étant d’expliquer un
phénomène. Si une action est positive dans 90 % des cas, ce n’est pas pour autant qu’il
faille prendre un échantillon contenant 90 % des cas positifs aussi. Mieux vaut équilibrer et
faire 50 / 50 afin de forcer le réseau à comprendre les 10 % négatifs.
Le codage des entrées est l’association des variables aux neurones. Ainsi une valeur
continue sera représentée par un neurone alors qu’une variable discrète prenant, par
exemple, les valeurs travailleur actif ou non actif sera codée par deux neurones.
Le jeu de données constitué à l’étape précédente, peut contenir soit beaucoup trop de
variables, qui alourdirait le travail d’apprentissage, soit des valeurs aberrantes qui
fausseraient les calculs. Il est donc important de retravailler cet échantillon.
Fonction de sommation : définition de la nature de l’opérateur qui combine les poids des
Wi (somme, minimum, maximum, majorité, produit). La plus utilisée est la somme.
Calcul de l’erreur : calcul de l’écart entre la sortie donnée et la sortie calculée (erreur
moyenne, erreur absolue, erreur quadratique, sens de variation de l’erreur).
Souplesse,
Bonne résolution,
Bonne adaptation aux données,
Outils disponibles.
29.4.1 - SOUPLESSE
Les réseaux de neurones sont capables de traiter une gamme très étendue de problème. Leur
résultat peut être une prédiction, une classification ou encore une analyse de clusters.
Ils donnent de bons résultats, même dans des domaines complexes car ils sont beaucoup
plus puissants que les statistiques ou les arbres de décisions.
Une fois les données codées, ils traitent aussi bien des variables continues qu’énumératives.
Il existe de nombreux produits sur le marché intégrant la technique des réseaux de neurones
(4Thought, Saxon, Neural connection, Clementine, Intelligent Miner, SAS, etc.).
Toutes les entrées d’un réseau de neurones doivent se trouver dans un intervalle défini, en
général, entre 0 et 1. Ce qui entraîne des transformations, qui impliquent des traitements
supplémentaires, et risque de fausser les résultats.
29.5.2 - LISIBILITE
Les réseaux de neurones ne fournissent pas l’explication de leur résultat. Ce qui peut être
gênant si on cherche à comprendre un phénomène.
Afin que l’échantillon fournisse de bons résultats, sa taille doit être calculée en fonction du
nombre d’entrées, du nombre de couches et du taux de connexion. Ce qui entraîne une
augmentation du nombre d’exemples, qui ne sont pas toujours disponibles.
Le réseau proposé qui paraît optimal d’une façon globale, n’est pas toujours la meilleure
solution. En effet, plusieurs optima locaux ne donnent pas toujours la solution optimale en
totalité.
29.5.5 - PERFORMANCE
Le nombre de calculs à effectuer pour définir un réseau optimal peut être très consommateur
de puissance, ce qui peut donner de mauvaises performances à cette technique.
30 - MISE EN PLACE
Ce chapitre présente une démarche pour mettre en place un projet de Data Mining.
Nous prendrons, pour illustrer, l’exemple d’un courtier en assurances qui lance trois
nouvelles gammes.
On peut retenir :
Le choix des données étant fait, il faut déterminer les différentes sources. Certaines
proviennent du contrat (âge, sexe, produit, montant, etc.), d’autres de questionnaires
(centres d’intérêts) ou de base de données nationales (taille de la commune).
Certaines données, comme les centres d’intérêts, peuvent être difficile à récolter, tous les
clients ne répondant pas aux questionnaires. Le taux de réponse peut être estimé à 40 %.
Pour la sélection des données, on ne peut pas exclure les clients n’ayant pas répondu aux
questionnaires car cela fausserait les chiffres de l’étude, par contre, il faut se fixer certaines
règles pour limiter la taille de l’échantillon.
Ne pas prendre les clients qui n’ont pas effectué d’achats durant les trois dernières
années.
Prendre un enregistrement sur trois pour les clients ayant un montant d’achat total
supérieur à 20.000 FR.
Prendre un enregistrement sur dix pour les clients ayant un montant d’achat
inférieur à 20.000 FR.
A l’issue de cette sélection, nous nous trouvons en présence d’un échantillon, où le poids
des clients à fort potentiel a été augmenté, ce qui permettra de mieux analyser leur
comportement.
Trois types de problèmes peuvent être rencontrés dans cet échantillon : les valeurs
aberrantes, les valeurs manquantes et les valeurs nulles.
Les valeurs aberrantes sont détecter par les méthodes statistiques classiques.
Les valeurs manquantes peuvent être remplacées par une moyenne nationale, exemple le
nombre d’enfants.
Pour que les données soient exploitables, il faut maintenant agir sur certaines variables, par
des transformations monovariables ou multivariables.
Transformations monovariables :
Transformations multivariables
Ratios
Fréquence
Tendances
Cette étape consiste à extraire les facteurs pertinents et les présenter sous forme synthétique.
Dans notre exemple, les trois facteurs déterminants qui apparaissent sont l’âge, le nombre
de contrats et le chiffre d’affaires. A partir de ces facteurs, les clients sont rangés dans neuf
sous-classes.
C’est lors de cette phase que le ou les algorithmes de calcul seront choisit. Dans notre
exemple, un réseau de neurone a été construit afin de prédire la classe d’appartenance des
clients, puis cette information a été utilisé dans un arbre de décision pour une meilleure
formalisation.
C’est de plus l’occasion, pour faire le bilan des étapes précédentes, qui ont pu faire
apparaître certains points à améliorer, qualité des données, collecte des données…
Regroupement
par similitude
Classification
Analyse des
Description
Estimation
Prédiction
clusters
Statistiques
√ √ √ √ √ √
normales
Analyse du
panier de la √ √ √ √
ménagère
Raisonnement
basé sur la √ √ √ √
mémoire
Algorithmes
√ √
génétiques
Détection de
√
clusters
Analyse des
√ √ √
liens
Arbres de
√ √ √ √
décision
Réseaux de
√ √ √ √
neurones
Permettre des connexions aux bases de données afin de simplifier les manipulations
de données.
Etre performant, c’est à dire la précision et la rapidité des modèles.
Permettre des interfaces à des requêteurs ou à des outils OLAP, afin de visualiser les
données sans manipulations.
Plus de la moitié des entreprises américaines ont acheté un outil de datamining en 1997
(source IDC)
Le tableau ci-dessous présente les produits existants sur le marché en fonction de quatre
critères, les compétences requises, les techniques de modélisation, le matériel nécessaire et
le prix.
1 MF Gros
Intelligent serveurs
Miner
Decision
SAS Series
Mineset
4Thought Clementine
150 KF
Knowledge Seeker
Datamind
SPSS
Predict
Alice
Scenario
5 KF
PC
Utilisateur Compétences requises Expert
La quantité de données,
La nature des données,
Nombre de relations,
La nature des relations.
Statistiques B B B B B A+
Analyse du
panier de la A A A+ D B B
ménagère
Raisonnemen
t basé sur la A- B B A- A- C
mémoire
Algorithmes
B- C- A- B+ C C
génétiques
Détection des
B+ B+ A- A- B- B
clusters
Réseaux
A- C B D B C+
bayésiens
Arbres de
A+ B+ A+ A A B+
décision
Réseaux de
C- B- A- A A A
neurones
Il serait difficile de terminer cet exposé sur le data mining sans parler des problèmes
d'éthique.
En France, la loi du 24 Janvier 1978 oblige toute personne enregistrant des données sur les
individus à en faire une déclaration préalable auprès de la Commission Nationale
Informatique et Libertés (CNIL). Celle-ci émet un avis sur l'opportunité et la confidentialité
de l'enregistrement de ces données. Les personnes concernées ont, quant à elles, un droit de
consultation et de correction sur les informations mémorisées.
Cette loi présente l'avantage de préserver l'intimité des individus, là où les techniques de
data mining veulent aller dans le sens opposé !
Quelques sociétés se constituent déjà des fichiers d'individus, en mémorisant leurs goûts,
budgets, situations, etc… Elles adressent des listes non anonymes de 100 à 200 questions et,
en échange de la réponse, proposent des remises sur des achats de produits courants. Elles
mettent ensuite à disposition à la vente ces fichiers. Ceux qui les remplissent sont-ils
conscients de l'utilisation qui en sera faite ? Quelle pourrait être l'utilisation politique de ces
données ? Les clients sont classifiés par des techniques de data mining mais celles-ci ne sont
pas fiables à 100 %, alors quelles seront les conséquences pour les individus mal classés ?
Etant donnée l'omniprésence de l'informatique dans tous les domaines, quel est le niveau
acceptable qu'une société commerciale ne doit pas franchir pour respecter la vie privée des
individus ? Peut-on recueillir des informations privées à votre insu ?
Evidemment je laisse à chacun le soin de fournir ses propres réponses, mais il est probable
que ces questions se poseront. Aux Etats-Unis, suite à plusieurs incidents, une entreprise
trop entreprenante et investigatrice a été obligée de détruire une partie de ses fichiers sous la
pression de diverses sociétés de défense des consommateurs.
La mise en œuvre du data mining posera sans aucun doute des problèmes
d'éthique, difficiles à résoudre dans un contexte mondial.
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 233
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
33 - OUVERTURE A INTERNET
Internet, et son petit frère à l’échelle de l’entreprise intranet, deviennent aujourd’hui des
éléments incontournables du système d’information. Le succès récent de cette
technologie relativement ancienne est du à l’apparition du World Wide Web (WWW) en
1989, permettant à un utilisateur d’accéder au réseau Internet à travers un navigateur
(browser). Ce dernier lui permet de visualiser les informations sous une forme
ergonomique, sans avoir besoin de connaissances en informatique.
Les pages visualisées ne sont pas stockées sur le poste client mais sont envoyées, à la
demande, par un serveur Web. Elles sont écrites en langage HTML (Hyper Text Markup
Langage) et contiennent du texte formaté, des liens vers d’autres documents ou d’autres
parties de la page présentée et des images.
Automatisme du lien entre l’outil d’aide à la décision et le serveur Web. Le serveur Web
devient ici un serveur d’entreprise, permettant simplement de stocker des documents et
de les mettre à la disposition de toute personne possédant un navigateur Internet et ayant
le droit d’accéder à ces pages. Pour que cette solution soit viable, il faut que l’outil soit
capable de mettre automatiquement les pages HTML à disposition sur le serveur Web.
Même si elle apparaît sommaire, cette fonctionnalité peut être assez intéressante. Par
exemple, dans le cadre d’une entreprise et d’un réseau intranet, les rapports élémentaires
peuvent être mis à la disposition de l’ensemble des utilisateurs qui n’ont ainsi pas à
maîtriser et à employer un outil d’aide à la décision pour accéder aux informations qui
les intéressent.
D’autre part, le langage Javascript permet de joindre des programmes à des pages
HTML, afin de soulager le serveur et d’exécuter certains programmes au niveau client. Il
peut s’agir, par exemple, de programmes permettant de contrôler si l’utilisateur a bien
renseigné tous les champs obligatoires dans un formulaire, avant de l’envoyer vers le
serveur, afin d’éviter des aller et retours inutiles.
Enfin, le langage Java permet de créer de petites applications (appelées des applets) qui
pourront être chargées directement sur le poste client et exécutées à partir du navigateur,
il faut pour cela que ce dernier soit compatible Java.
D’autre part, il est nécessaire de lui laisser manipuler les données, par exemple dans le
cas d’outils permettant d’effectuer de l’analyse multidimensionnelle, de naviguer dans
les données.
Selon le Data Warehouse Institute, 82% des accès à un Data Warehouse s'effectuent
aujourd'hui en Client/Serveur "classique", 38% par un intranet et 8% via l'Internet. Ceci
confirme que le mariage entre le Web et l'aide à la décision est non seulement
souhaitable, car il permet d'élargir la cible des utilisateurs concernés avec une
problématique de déploiement amoindrie, mais aussi opérationnel dès aujourd'hui, même
si la puissance fonctionnelle et la qualité de service du Web sont plus faibles qu'en
Client/Serveur. L'analyse de ces chiffres indique également la complémentarité du
Client/Serveur et du Web, le premier étant a priori mieux adapté aux utilisations
intensives et le second pour toute autre utilisation que le Client/Serveur ne peut
satisfaire pour des raisons de coûts de déploiement ou d'insuffisante homogénéité de
l'infrastructure.
Requêteurs et outils OLAP diffèrent dans leur capacité à s'intégrer au monde du Web.
OLAP s'adapte naturellement au Web par la structure de navigation prédéfinie qu'il
propose, principe conforme au concept hypertexte du Web. Malgré tout, les versions
Web existant à ce jour représentent encore une légère régression fonctionnelle par
rapport à leur version Client/serveur, mais ces différences s'amenuisent de jour en jour.
Côté requêteur, l'intégration au Web est plus complexe à réaliser : laissant beaucoup
d'autonomie à l'utilisateur, ces outils disposent d'une interface cliente assez sophistiquée.
HTML montre alors ses limites fonctionnelles du côté de
Certains éditeurs, à l'instar de Brio qui a choisi le plug-in, proposent ces architectures ou
sont en passe de le faire. Mais, chacune d'entre elle n'est pas sans inconvénient, en terme
de consommation de bande passante et d'absence d'offre opérationnelle côté Java et de
problèmes de déploiement qui subsistent du fait de la recopie de code côté client pour
les plug-ins ou Active X.
34 - CONCLUSION
Notre étude, dans chacune de ses parties, nous a amenés à isoler chaque technique de l’aide
à la décision afin d’en montrer ses caractéristiques, sa mise en œuvre, son apport au
processus de prise de décision.
Le Data Mining permet d’extraire du Data Warehouse deux types de connaissances : l’une,
explicative des résultats obtenus par l’analyse multidimensionnelle ou explicative
d’hypothèses relatives au contenu informationnel du data warehouse, l’autre, nouvelle,
porteuse éventuellement de nouvelles possibilités d’action.
Le Tableau de Bord a été juste évoqué; il est à la frontière du Data*. Cet outil se retrouve
dans tous les systèmes de Pilotage ( Opérationnel ou Décisionnel ). warehouse. Toutefois,
appliquée sur un data warehouse, la fonction Indicateur du tableau de bord peut intégrer un
éventail plus riche de variables ou être rapprochée d’un référentiel plus large dans le temps.
Concurrence
Produits de
Pays
Substitution
France Concurrence
Nous pouvons penser que les perspectives d’échanges d’information ou de connexion entre
les systèmes décisionnels au travers du WEB vont s’auto-générer : c’est à dire, « entrer
dans le processus d’interconnexion » générera de nouvelles opportunités stratégiques (
alliances, rachat, réseau d’entreprises) qui, réalisées, amèneront de nouvelles architectures
décisionnelles et permettront d’ouvrir d’autres perspectives.
34.3 - CONCLUSION
De ces possibilités, nous n’avons pas aujourd’hui suffisamment d’expériences connues , si
toutefois, il en existe. Ainsi, à ce stade de la réflexion, nous passons le témoin de ce travail
aux prochains auditeurs de valeur C en informatique décisionnelle. A eux, de rendre
compte, d’analyser et d’expliquer ce dont ils seront témoins dans les perspectives WEB-
Décisionnel que nous commençons à entrevoir à ce jour.
35 - GLOSSAIRE
Agent intelligent Un agent est une entité logicielle capable d'agir sur elle-même et sur
son environnement. Il dispose d'une représentation partielle de cet
(Knowbot)
environnement et peut communiquer avec d'autres agents. Il poursuit
un objectif individuel et son comportement est la conséquence de ses
observations, de ses compétences, et des interactions qu'il peut avoir
avec d'autres agents et son environnement.
Base de données Base dont les données sont dispersées sciemment (distribuées) sur
distribuée plusieurs serveurs liés par un réseau.
On dit aussi Base Répartie lorsque c'est le SGBD qui pilote les accès
Base de données locale Base de donnée située sur le poste client, contenant des données
propres à l’utilisateur, voire des données partagées répliquées.
Data Mining Définition un peu floue car récupérée par beaucoup d’éditeurs
d’outils d’aide à la décision. A l’origine, le data mining
correspondait à toutes les technologies avancées susceptibles
d’analyser l’information d’un Data Warehouse pour en tirer des
tendances, pour segmenter l’informations, ou pour trouver des
corrélations dans les données. Aujourd’hui, le terme a tendance à
caractériser tous les outils d’aide à la décision, le " mineur " étant
soit l’outil lui-même soit l’utilisateur.
Data Mining Aussi connu sous le nom de KDD (Knowledge Discovery Data), les
(outils de) outils de data mining permettent d’extraire de la connaissance des
données en découvrant des modèles, des règles dans le volume
d’information présent dans les entreprises.
Découverte de règles Les outils permettant de découvrir des règles vont partir d’une
hypothèse et la tester au travers de requêtes et de statistiques puis la
modifier en fonction des résultats. Ces systèmes vont scruter la base
de données, forger des hypothèses et, si elles sont vérifiées, les
remonter à l’utilisateur.
Dépendante (variable) Variable cible de l’analyse de Data Mining, notamment pour les
arbres de décision.
Détection de déviations Des outils permettent de détecter sur un ensemble de données celles
présentant des déviations par rapport à des normes et des indicateurs
de référence décrits antérieurement.
Discrète Variable prenant ses valeurs (cf. catégorie) dans un ensemble limité.
(variable)
Données creuses Dans une structure multidimensionnelle, les données creuses sont
des intersections de dimensions pour lesquels un fait ne s’est pas
produit (exemple : pas de vente de produit X à la date T) ou n’est pas
physiquement stocké (exemple : pas d’agrégations physique associée
aux vente de produits par gammes et par mois).
- le workflow
- le courrier électronique
- la gestion de conférences
Induction Méthode consistant à tirer une conclusion d’une série de faits. Cette
conclusion ne sera jamais sûre à 100 %.
Jointure externe Jointure préservant les lignes d’une première table, même si
l’attribut de jointure n'apparaît pas dans la seconde. .
Métabase Ensemble de tables systèmes utilisées par les SGBD pour stocker la
description des objets utilisateurs (tables, vues, droits, procédures
stockées, ...) d’une base
Nearest Neighbor Méthode du plus proche voisin utilisée pour faire de la classification
(ou Knn) supervisée. Elle consiste à examiner les éléments, dont la classe est
connue, proches de l’élément dont on veut déterminer la classe.
ODBC Interface d’accès aux SGBD (API + langage SQL) définie par
Open DataBase Microsoft en 1992 et basée sur le standard CLI. Du fait de son
Connectivity succès auprès des utilisateurs et des éditeurs, ODBC est devenu un
standard de fait. Il permet d’accéder à des SGBD d’éditeurs
différents en utilisant la même interface de programmation. Plusieurs
niveaux (Level 1 et Level 2) existent dans l’API correspondant aux
niveaux de fonctionnalités.
Optimiseur L'optimisation des questions est un aspect tout à fait central des
systèmes relationnels; La requête SQL est transformée en une
succession d'opérateurs relationnels (restriction, projection, jointure,
union, ...); L’optimiseur est un composant logiciel chargé de choisir
l'ordre dans lequel ces opérations vont être exécutées.
Passthru (mode) Mode de communication particulier offert par certaines API qui
permettent de passer le SQL directement au SGBD cible sans tenter
de l’analyser. Ce mode permet au développeur d’applications
d’utiliser les spécificités des SGBD.
Relation causale Relation de cause à effet entre des variables. Ainsi, la modification
d’une variable A pourra entraîner la modification d’une variable B.
Système distribué (ou De façon générale, un système réparti (ou distribué) est un ensemble
réparti) de machines qui peuvent échanger des informations par
(en anglais, distributed) l’intermédiaire d’un réseau de communication. De plus, une
architecture répartie (ou distribuée) se définit par un ensemble de
stations de travail utilisables simultanément par des usagers.
36 - INDEX
Connaissances (Recherche)....................................................131
Conseiller électronique...........................................................186
1 Construction.............................................................................82
Contenu informatif ...................................................................53
12 Règles d’OLAP ...................................................................99 Corrélation .............................................................................132
Couche cachée........................................................................201
Covariance .............................................................................132
A Croisement .............................................................................181
Cross-over ..............................................................................181
Abduction ..............................................................................133
Accès........................................................................................84
Acquisition...............................................................................83 D
Acte économique .....................................................................53
Activités ...................................................................................56 Data Mart .................................................................................96
ADN.......................................................................................177 Data mining
Agent intelligent.....................................................................185 accès décisionnel................................................................84
Agent négociateur ..................................................................186 définition ..........................................................................129
Agent vendeur........................................................................186 méthodologie....................................................................141
Agglomération .......................................................................172 présentation ......................................................................128
Agrégation .....................................................................107, 172 statistiques........................................................................130
Aide à la décision.....................................................................40 tâches................................................................................135
Algorithme de rétropropagation .............................................204 techniques ........................................................................154
Algorithmes génétiques..................................................156, 177 Data Surfing ...........................................................................109
Amplitude ..............................................................................131 Data Warehouse .......................................................................11
Analyse des clusters ...............................................................137 Décision ...................................................................................25
Analyse des liens....................................................................155 Décision satisfaisante ...............................................................37
Analyse du panier de la ménagère..................................154, 157 Découverte de connaissances dirigée .....................................152
Analyse préalable...................................................................130 Découverte de connaissances non dirigée ..............................146
Arbre de décision ...................................................................193 Déduction...............................................................................134
Arbres de décision..........................................................135, 155 Descendants ...........................................................................179
Architecture .............................................................................78 Description.....................................................................135, 137
Articles virtuels......................................................................161 Détection automatique de clusters..........................................154
Axe.........................................................105, 106, 107, 108, 118 Diagnostic externe....................................................................56
Diagnostic interne ....................................................................58
Dimension ......................................100, 106, 107, 108, 109, 112
B Dissociation............................................................................161
Distance..................................................................................167
Base de compréhension............................................................55
Distance interdécile................................................................131
Base de faits .............................................................................54
Distance interquartile .............................................................131
Bilan.......................................................................................130
Donnée ...............................................................................72, 88
Donnée agrégée........................................................................77
C Donnée détaillée.......................................................................76
Donnée historisée...............................................................75, 78
C4.5........................................................................................194 Données (préparer).................................................................143
CART.....................................................................................194 Drill up and Down..........................................100, 105, 108, 109
Case Based Reasoning ...........................................................165 Droit .......................................................................................213
Causalité ................................................................................132
CBR .......................................................................................165
E
Cellule....................................................................................106
Cellules creuses......................................................................109
Ecart absolu moyen ................................................................131
Cercle vertueux ......................................................................140
Ecart type ...............................................................................131
CHAID...................................................................................194
Echelle de préoccupation .........................................................27
Chromosomes ........................................................................178
EIS ...........................................................................................62
Classification .........................................................................135
Entreprise .................................................................................12
Clusterisation .................................................................135, 137
Environnement .........................................................................21
Clusters ..................................................................................171
Espace de résolution.................................................................34
CNIL ......................................................................................213
Estimation ......................................................................135, 136
Coefficient de corrélation.......................................................132
Ethique ...........................................................................187, 213
Combinaison ..........................................................................168
Etude stratégique......................................................................87
Conception...............................................................................86
Evaluation ..............................................................145, 153, 178
Confusion...............................................................................132
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 251
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
H
P
Hasard ....................................................................................132
Heuristique...............................................................................18 Paradigme STI..........................................................................18
Hiérarchie.......................................................105, 106, 108, 112 Plan d’action ............................................................................87
Holland ..................................................................................177 Planification .............................................................................33
Hybridation ............................................................................181 Prédicats...................................................................................47
Hypercube........................................99, 102, 105, 106, 109, 111 Prédiction .......................................................................135, 136
Probabilité d’apparition .........................................................189
Problématique ..........................................................................12
I Problème ..................................................................................16
Processus de décision...............................................................28
Indicateur ...............................................................105, 107, 118
Indicateurs
Dispersion ........................................................................131 R
Tendance centrale ............................................................131
Induction................................................................................134 Raisonnement basé sur la mémoire ................................154, 165
Inférence ..........................................................................46, 133 Rationalité limitée ....................................................................36
Infocentre ...........................................................................70, 80 Rationalité procédurale ............................................................37
Initiative.............................................................................83, 87 RBM...............................................................................154, 165
Interactif...................................................................................40 Recherche de connaissances...................................................131
Internet...................................................................................185 Recherche opérationnelle .......................................................129
Inversion ................................................................................181 Règle d’activation ..................................................................201
Règle d’apprentissage ............................................................202
Règles.....................................................................................159
K Regroupement par similitudes................................................136
Réponse commune .................................................................132
Khi 2 ......................................................................................132 Réseau Bayésien.....................................................................188
K-moyennes ...........................................................................171 Réseau de neurones ................................................................200
Knowbot ................................................................................185 Réseaux de neurones ..............................................................155
ROLAP ..................................................113, 118, 119, 120, 156
M
S
Médiane .................................................................................131
Métadonnée........................................................................77, 91 Segmentation..................................................................135, 137
Méta-donnée ..................................................................117, 119 Sélection.................................................................................180
Méthodes traditionnelles........................................................131 Selective pressure...................................................................180
Métrique.................................................................................107 Séries temporelles ..................................................................162
Modèle de donnée....................................................................92 SGBD.......................................................................................42
Modèle en étoile.............................................110, 112, 113, 119 SIAD ........................................................................................39
Modèle en flocon ...................................................110, 112, 119 Slice and Dice ................................................100, 105, 108, 109
Modèle normalisé...................................................110, 111, 112 Snowflake...............................................................................110
Modélisation ............................................................................33 Sparcity ..................................................................................109
Modélisation dimensionnelle .................................................112 Star .........................................................................................110
Modélisation relationnelle .....................................................111 Statistiques .....................................................................130, 131
MOLAP .................................................113, 118, 119, 120, 156 STI ...........................................................................................18
Moyenne ................................................................................131 Stockage ...................................................................................84
Mutation.................................................................................181 Stratégie ...................................................................................56
Structure...................................................................................76
Système décisionnel ...........................................................15, 50
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 252
Conservatoire National Version 1.1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
37 - TABLES
38 - BIBLIOGRAPHIE
Ouvrages de référence
Martin Forest, Groupe Canadien Innovation, « Gérer le Savoir, le nouveau défi des
organisations », Journée d’études du 8 Avril 1997, Maison des Professions de Lille.
Articles
IEEE Parall & Distributed Technology, "Parallelism speeds data mining", 1995
Autres ouvrages
Articles
D2K (http://www.d2k.com)
“ What is a Data Mart ? ” - W.H. Inmon
Informatiques Magazine
39 - SITES INTERNET
http://www.01-informatique.com/techno/fiches/F1396.htm
http://www.ordinateur-individuel.com/dos_1455/dos1455-7.html
http:// www.businessdecision.com/mining.htm
http://www.grimmersoft.com
http://www.mygale.org:80/05/jargonf/dtb/thm02.htm
http://www.lmi.fr:80/lmi/736/736p11.html
http://wwwperso.hol.fr:80/~nuvoloni/AD.HTM
http://yphise.com/etudes/fr/jrnl28.htm
http://www.grd-publications.com/tech/t_001.htm
http://www.datamodeling.com/
http://www.fr.ibm.com/france/pole/m3p_pr4.htm
http://www.idg.fr/lmi/700/700p28.html
http://www.cognos.com/international/fr/presse19.html
http://institut.inforoute.cgs.fr/idecis.htm
http://www.businessdecision.com/r2.htm
http://www.lmi.fr/lmi/756/756p10.html
http://home.nordnet.fr/~dnakache/valeurc