DWH - Nackache (1) .9online - FR - Enorme Dossier DWH - y A Etl Et Prez ++

Conservatoire National Version 1.
1
des Data warehouse et data mining
Arts et Métiers de Lille Le 15 Juin 1998
SOMMAIRE GENERAL
PRESENTATION (page 11)
LA PROBLEMATIQUE DE L'ENTREPRISE (page 12)
LE DATA WAREHOUSE (page 79)
OLAP ET ANALYSE MULTIDIMENSIONNELLE (page 111)
LE DATA MINING (page 140)
DIVERS : ETHIQUE, WEB, … (page 233)
C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 1

Conservatoire National Version 1.1
SOMMAIRE DETAILLE
Page
1 - INTRODUCTION .............................................................................................................................................................11
2 - LA PROBLEMATIQUE DE L'ENTREPRISE ..............................................................................................................12

2.1 - INTRODUCTION.......................................................................................................................................................12
2.1.1 - L’ENTREPRISE ......................................................................................................................................................12
2.1.2 - LE DÉCIDEUR .......................................................................................................................................................15
2.1.3 - LES NIVEAUX DE PRÉOCCUPATIONS DU DÉCIDEUR ...............................................................................................15
2.1.4 - RESUME.............................................................................................................................................................16
2.2 - LE SYSTÈME DÉCISIONNEL DE L’ORGANISATION.........................................................................................16
2.2.1 - LA RÉSOLUTION DE PROBLÈME .............................................................................................................................17
2.2.1.1 - Le Problème...................................................................................................................................................................17
2.2.1.2 - La Résolution du Problème............................................................................................................................................17
2.2.1.3 - L’espace de Résolution ..................................................................................................................................................18
2.2.1.3.1 - L’espace des états..................................................................................................................................................18
2.2.1.3.2 - Les Opérateurs ......................................................................................................................................................18
2.2.1.3.3 - La Réduction de la Différence ..............................................................................................................................18
2.2.1.3.4 - l’Heuristique. ........................................................................................................................................................19
2.2.1.3.5 - En résumé .............................................................................................................................................................19
2.2.2 - LE PARADIGME STI ...............................................................................................................................................19
2.2.2.1 - STI .................................................................................................................................................................................19
2.2.2.2 - la Représentation du STI................................................................................................................................................20
2.2.2.3 - Matière traitée : Signes et Symboles ..............................................................................................................................22
2.2.2.4 - Les décalages espace, temps, forme du STI ...................................................................................................................22
2.2.2.5 - La définition de Simon ..................................................................................................................................................22
2.2.2.6 - En Résumé .....................................................................................................................................................................22
2.2.3 - L’ORGANISATION ET LE STI ..................................................................................................................................24
2.2.3.1 - La Perception de l’environnement .................................................................................................................................24
2.2.3.2 - La représentation mentale et les niveaux de préoccupation ...........................................................................................25
2.2.3.3 - Les composantes du modèle ..........................................................................................................................................25
2.2.3.4 - L’élément déclencheur du problème ..............................................................................................................................26
2.2.3.4.1 - Variation entre 2 évaluations de la représentation du modèle...............................................................................26
2.2.3.4.2 - Variation de l’état des préoccupations ..................................................................................................................26
2.2.3.5 - Le Projet de l’Organisation............................................................................................................................................26
2.2.3.6 - En Résumé .....................................................................................................................................................................27
2.2.4 - LA DECISION .........................................................................................................................................................28
2.2.4.1 - Les Phases de la Prise de décision .................................................................................................................................28
2.2.4.2 - Echelle des préoccupations et échelle de normalisation des Décisions..........................................................................29
2.2.4.3 - Structuration du processus de décision ..........................................................................................................................32
2.2.4.3.1 - Introduction ..........................................................................................................................................................32
2.2.4.3.2 - Rôle des conseils extérieurs ..................................................................................................................................34
2.2.4.3.3 - Processus de structuration et de Normalisation.....................................................................................................34
2.2.4.3.3.1 - Définitions ...................................................................................................................................................34
2.2.4.3.3.2 - Développement du Processus.......................................................................................................................35
2.2.4.4 - La Représentation ..........................................................................................................................................................36
2.2.4.4.1 - Représentation, Structuration, Process..................................................................................................................36
2.2.4.4.2 - Les Niveaux de Représentations ...........................................................................................................................37
2.2.4.4.3 - Equilibration et Modèles.......................................................................................................................................39
2.2.4.4.4 - Les Niveaux de Représentation.............................................................................................................................41
2.2.4.4.5 - Modèle ..................................................................................................................................................................41
2.2.4.4.6 - 1er Espace de résolution .......................................................................................................................................41
2.2.4.4.7 - 2d Espace de Résolution .......................................................................................................................................42
2.2.5 - LE PRINCIPE DE RATIONALITÉ LIMITÉE .................................................................................................................43
2.2.5.1.1 - Les Modèles à Fonction optimisée........................................................................................................................43
2.2.5.1.2 - Hypothèses de la rationalité limitée ......................................................................................................................43
2.2.5.1.3 - Conséquences........................................................................................................................................................43
2.2.5.1.4 - Rationalité Limitée et Décision Satisfaisante........................................................................................................44
2.2.5.1.5 - rationalité limitée et paradigme STI......................................................................................................................45
2.2.5.1.6 - Rationalité limitée dans les programmes...............................................................................................................46
2.2.6 - LE SIAD OU SYSTÈME INTERACTIF D’AIDE A LA DECISION ....................................................................................46

2.2.6.1.1 - Définition ..............................................................................................................................................................46
2.2.6.1.2 - Interactif................................................................................................................................................................47
2.2.6.1.3 - SIAD & Aide à la décision....................................................................................................................................47
2.2.7 - LES SIAD ÉLÉMENTAIRES .....................................................................................................................................48
2.2.7.1 - Le tableur .......................................................................................................................................................................48
2.2.7.1.1 - Théorie..................................................................................................................................................................48
2.2.7.1.2 - Méthode ................................................................................................................................................................48
2.2.7.1.3 - Modèle ..................................................................................................................................................................48
2.2.7.1.4 - Processeur d’états .................................................................................................................................................48
2.2.7.1.5 - S.T.I. .....................................................................................................................................................................48
2.2.7.1.6 - Organisation de l’ensemble des modèles ..............................................................................................................48
2.2.7.1.7 - La recherche Heuristique sur les modèles .............................................................................................................49
2.2.7.1.8 - La recherche Heuristique sur les valeurs...............................................................................................................49
2.2.7.1.9 - Organisation de l’ensemble des modèles ..............................................................................................................49
2.2.7.2 - Système de gestion de bases de données........................................................................................................................49
2.2.7.2.1 - La Théorie « Base de données »............................................................................................................................49
2.2.7.2.2 - La méthode ...........................................................................................................................................................49
2.2.7.2.3 - Le Modèle .............................................................................................................................................................49
2.2.7.2.4 - L’état.....................................................................................................................................................................50
2.2.7.2.5 - le processeur d'état ................................................................................................................................................50
2.2.7.2.6 - Démarche Heuristique sur les Modèles.................................................................................................................50
2.2.7.3 - Générateur de systèmes experts .....................................................................................................................................50
2.2.7.3.1 - La Théorie.............................................................................................................................................................50
2.2.7.3.2 - Remarque ..............................................................................................................................................................51
2.2.7.3.3 - Exemple d’une base de faits..................................................................................................................................51
2.2.7.3.4 - Présentation succincte des systèmes experts .........................................................................................................51
2.2.7.3.5 - Représentation des connaissances.........................................................................................................................52
2.2.7.3.6 - Représentation des faits ........................................................................................................................................52
2.2.7.3.7 - Inférence incertaine...............................................................................................................................................53
2.2.7.3.8 - Choix d’une règle applicable ................................................................................................................................53
2.2.7.3.9 - Le moteur d’inférence ...........................................................................................................................................54
2.2.7.3.10 - Types de Fonctionnement : Chaînage avant, arrière, mixte. ..............................................................................54
2.2.7.3.11 - Logique des Prédicats .........................................................................................................................................54
2.2.7.3.12 - La Théorie...........................................................................................................................................................54
2.2.7.3.13 - La Méthode .........................................................................................................................................................55
2.2.7.3.14 - Le Modèle ...........................................................................................................................................................55
2.2.7.3.15 - Etat......................................................................................................................................................................55
2.2.7.3.16 - Opérateur ............................................................................................................................................................55
2.2.7.3.17 - Processeur d’état .................................................................................................................................................55
2.2.7.3.18 - Recherche Heuristique sur les modèles...............................................................................................................55
2.2.7.3.19 - Remarques ..........................................................................................................................................................56
2.2.8 - LE SYSTÈME DÉCISIONNEL ....................................................................................................................................57
2.3 - LE CONTENU INFORMATIF DU SYSTÈME DÉCISIONNEL..............................................................................60
2.3.1 - CONTENU INFORMATIF ELEMENTAIRE ..................................................................................................................60
2.3.1.1 - Acte economique ...........................................................................................................................................................60
2.3.1.1.1 - Structure de l’acte économique.............................................................................................................................60
2.3.1.1.2 - le Contrat ..............................................................................................................................................................61
2.3.1.1.3 - L’environnement...................................................................................................................................................61
2.3.1.1.4 - base de faits...........................................................................................................................................................61
2.3.1.1.5 - Base de Compréhension........................................................................................................................................62
2.3.1.2 - Les Activités ..................................................................................................................................................................63
2.3.1.2.1 - Les Activités Industrielles.....................................................................................................................................63
2.3.1.2.2 - Les Activités Administratives ...............................................................................................................................63
2.3.1.2.3 - Les Activités Associatives.....................................................................................................................................63
2.3.2 - STRATÉGIE DES ORGANISATIONS ...........................................................................................................................63
2.3.2.1 - le diagnostic externe ......................................................................................................................................................63
2.3.2.2 - Analyse de l’Environnement..........................................................................................................................................65
2.3.2.3 - Le diagnostic interne......................................................................................................................................................66
2.3.2.4 - Approche Création de Valeur ........................................................................................................................................66
2.3.2.5 - Conclusion .....................................................................................................................................................................67
2.3.2.6 - L’Ensemble des décisions stratégiques ..........................................................................................................................67
2.3.3 - LE CONTENU INFORMATIF DE LA PARTIE HAUTE DES PRÉOCCUPATIONS ..................................................................68
2.3.3.1 - Passage du compliqué au complexe...............................................................................................................................69
2.3.3.2 - La Mondialisation ..........................................................................................................................................................69
2.3.3.3 - Le client .........................................................................................................................................................................69
2.3.3.4 - Des contingences évolutives ..........................................................................................................................................69
2.3.3.5 - Un niveau scolaire occidental élevé...............................................................................................................................69

2.3.3.6 - Le développement des alliances, des réseaux d’entreprises ...........................................................................................69
2.3.3.7 - La 4ème révolution du Savoir........................................................................................................................................70
2.3.4 - CONCLUSION ........................................................................................................................................................70
2.4 - CONCLUSION DE LA PROBLEMATIQUE ............................................................................................................70
2.4.1 - SYSTÈME DÉCISIONNEL .........................................................................................................................................70
2.4.2 - POSTIONNEMENT DES OUTILS D’AIDE A LA DECISION..............................................................................................70
2.4.2.1 - Positionnement du Data Warehouse ..............................................................................................................................71
2.4.2.2 - Autres Outils décisionnels .............................................................................................................................................73
2.4.2.3 - Tableur et Modèles ........................................................................................................................................................73
2.4.2.4 - Positionnement de l’analyse multidimensionnelle .........................................................................................................74
2.4.2.5 - Positionnement du Data Mining ....................................................................................................................................75
2.4.2.6 - Positionnement du Système Expert................................................................................................................................76
2.4.2.7 - Positionnement du tableau de Bord ...............................................................................................................................76
2.4.2.8 - Positionnement des E.I.S (Executive Information System) ...........................................................................................76
2.4.3 - CONCLUSION ........................................................................................................................................................78
3 - LE DATA WAREHOUSE ................................................................................................................................................79
3.1 - PRÉSENTATION .......................................................................................................................................................79
3.2 - POURQUOI UN DATA WAREHOUSE....................................................................................................................80
3.2.1 - LA PROBLÉMATIQUE DES ENTREPRISES ..................................................................................................................80
3.2.2 - LA RÉALITÉ DES SYSTÈMES D’INFORMATIONS .........................................................................................................81
3.2.3 - LES OBJECTIFS......................................................................................................................................................83
3.3 - DÉFINITION ..............................................................................................................................................................84
3.4 - LES CONCEPTS DE BASE .......................................................................................................................................86
3.4.1 - LA STRUCTURE......................................................................................................................................................86
3.4.2 - LES ARCHITECTURES .............................................................................................................................................88
3.4.2.1 - L’architecture réelle .......................................................................................................................................................88
3.4.2.2 - L’architecture virtuelle...................................................................................................................................................89
3.4.2.3 - L’architecture remote.....................................................................................................................................................89
3.4.2.4 - Synthèse.........................................................................................................................................................................89
3.4.3 - INFOCENTRE ET DATA WAREHOUSE ......................................................................................................................91
4 - LA CONSTRUCTION DU DATA WAREHOUSE ........................................................................................................93
4.1 - LES APPLICATIONS ................................................................................................................................................94
4.2 - LES COMPOSANTS FONCTIONNELS ...................................................................................................................94
4.2.1 - L’ACQUISITION .....................................................................................................................................................94
4.2.2 - LE STOCKAGE .......................................................................................................................................................95
4.2.3 - L’ACCÈS ...............................................................................................................................................................95
4.3 - LES INFRASTRUCTURES .......................................................................................................................................96
5 - LA CONCEPTION DU DATA WAREHOUSE..............................................................................................................97
5.1 - DÉCOUVRIR ET DÉFINIR LES INITIATIVES.......................................................................................................98
5.1.1 - L’ÉTUDE STRATÉGIQUE .........................................................................................................................................98
5.1.2 - LE PLAN D’ACTION ................................................................................................................................................98
5.2 - L’INFRASTRUCTURE ............................................................................................................................................100
5.2.1 - L’INFRASTRUCTURE TECHNIQUE .........................................................................................................................100
5.2.2 - L’INFRASTRUCTURE ORGANISATIONNELLE ...........................................................................................................101
5.3 - LA FORMATION.....................................................................................................................................................101
5.4 - LA MISE EN ŒUVRE DES APPLICATIONS........................................................................................................101
6 - L’ADMINISTRATION DES DONNÉES ......................................................................................................................103
6.1 - LES MÉTADONNÉES.............................................................................................................................................103
6.2 - LE RÉFÉRENTIEL DU DATA WAREHOUSE ......................................................................................................104
6.3 - LA MISE EN ŒUVRE .............................................................................................................................................105
6.3.1 - SÉCURITÉ ...........................................................................................................................................................105
6.3.2 - GESTION DES PERFORMANCES.............................................................................................................................106
6.3.3 - BATCHS ..............................................................................................................................................................107
7 - LE DATA MART ............................................................................................................................................................108
7.1 - DÉFINITION ............................................................................................................................................................108
7.2 - MISE EN PLACE .....................................................................................................................................................109
8 - LE CONCEPT OLAP .....................................................................................................................................................111

8.1 - PRÉSENTATION .....................................................................................................................................................111
8.2 - LES 12 RÈGLES OLAP ...........................................................................................................................................111
8.2.1 - TYPOLOGIE DES REGLES O.L.A.P. ...................................................................................................................114
8.2.2 - COMMENTAIRES ..................................................................................................................................................115
9 - ANALYSE MULTIDIMENTIONNELLE.....................................................................................................................117
9.1 - LE MODÈLE ............................................................................................................................................................118
9.1.1 - LES DIMENSIONS .................................................................................................................................................118
9.1.2 - LES VARIABLES....................................................................................................................................................119
9.2 - NAVIGATION DANS LES DONNÉES ..................................................................................................................120
9.2.1 - DRILL-DOWN, DRILL-UP .....................................................................................................................................120
9.2.2 - SLICE AND DICE ..................................................................................................................................................120
9.2.3 - DATA SURFING ...................................................................................................................................................121
9.3 - PROBLEME DES MATRICES CREUSES..............................................................................................................121
10 - MODELISATION .........................................................................................................................................................122
10.1 - MODÉLISATION RELATIONNELLE .................................................................................................................123
10.1.1 - MODÈLE DE DONNÉES NORMALISÉ ....................................................................................................................123
10.1.2 - MODÈLE DE DONNÉES DÉNORMALISÉ ................................................................................................................123
10.2 - MODÉLISATION DIMENSIONNELLE ...............................................................................................................124
10.2.1 - MODÉLISER EN ÉTOILE......................................................................................................................................124
10.2.2 - MODÉLISER EN FLOCON ....................................................................................................................................124
11 - STOCKAGE DES DONNEES......................................................................................................................................126
11.1 - LE STOCKAGE DES DONNÉES EXTERNES ....................................................................................................126
11.2 - OPTIMISATION PHYSIQUE................................................................................................................................127
11.2.1 - AGREGATION DE TABLES ....................................................................................................................................127
11.2.2 - PARTITIONNEMENT DE TABLES ...........................................................................................................................128
11.3 - LES MÉTA-DONNÉES..........................................................................................................................................129
12 - LES DIFFERENTS OUTILS OLAP............................................................................................................................130
12.1 - LES OUTILS MOLAP............................................................................................................................................130
12.2 - LES OUTILS ROLAP.............................................................................................................................................131
13 - L'ALIMENTATION DU DATA WAREHOUSE .......................................................................................................133
13.1 - LES PHASES DE L'ALIMENTATION ................................................................................................................133
13.2 - LA DECOUVERTE DES DONNÉES ....................................................................................................................134
13.3 - L'EXTRACTION DES DONNÉES. .......................................................................................................................134
13.4 - LA TRANSFORMATION DES DONNÉES ..........................................................................................................136
13.5 - LE CHARGEMENT DES DONNÉES ...................................................................................................................136
14 - QUELQUES CHIFFRES ..............................................................................................................................................138
14.1 - LE MARCHÉ DU DATA WAREHOUSE .............................................................................................................138
14.2 - LE RETOUR SUR INVESTISSEMENTS.............................................................................................................139
15 - INTRODUCTION AU DATA MINING......................................................................................................................140
15.1 - L'ENVIRONNEMENT DE L'ENTREPRISE .........................................................................................................140
15.2 - PRESENTATION DU DATA MINING.................................................................................................................140
15.3 - DEFINITION ..........................................................................................................................................................142
15.4 - LE DATA MINING ET LA RECHERCHE OPERATIONNELLE........................................................................142
15.5 - STATISTIQUES ET DATA MINING ...................................................................................................................143
16 - LA RECHERCHE DE CONNAISSANCES................................................................................................................144
16.1 - LES STATISTIQUES .............................................................................................................................................144
16.1.1 - INDICATEURS DE TENDANCE CENTRALE ...............................................................................................144
16.1.2 - INDICATEURS DE DISPERSION..................................................................................................................144
16.1.3 - RELATIONS ENTRE VARIABLES..................................................................................................................145
16.2 - LES SCHEMAS D’INFERENCE ...........................................................................................................................146
16.2.1 - L’ABDUCTION...............................................................................................................................................146
16.2.2 - LA DEDUCTION ............................................................................................................................................147

16.2.3 - L’INDUCTION ...............................................................................................................................................147
17 - LES TACHES DU DATA MINING.............................................................................................................................148
17.1 - LA CLASSIFICATION ..........................................................................................................................................148
17.2 - L’ESTIMATION.....................................................................................................................................................149
17.3 - LA PREDICTION...................................................................................................................................................149
17.4 - LE REGROUPEMENT PAR SIMILITUDES ........................................................................................................149
17.5 - L’ANALYSE DES CLUSTERS .............................................................................................................................150
17.6 - LA DESCRIPTION.................................................................................................................................................150
17.7 - L’OPTIMISATION.................................................................................................................................................150
17.8 - ILLUSTRATION DES TACHES DU DATA MINING.........................................................................................151
17.9 - SYNTHESE ............................................................................................................................................................152
18 - LE CERCLE VERTUEUX ...........................................................................................................................................153
19 - METHODOLOGIE DE DATA MINING....................................................................................................................154

19.1 - LE TEST D’HYPOTHESES...................................................................................................................................154
19.1.1 - PROCESSUS DU TEST D'HYPOTHESE .......................................................................................................154
19.1.1.1 - Générer de bonnes idées ............................................................................................................................................154
19.1.1.2 - Déterminer les données pour tester les idées .............................................................................................................155
19.1.1.3 - Localiser les données .................................................................................................................................................155
19.1.1.4 - Préparer les données pour l'analyse ...........................................................................................................................156
19.1.1.4.1 - Définir le bon niveau de résumé .......................................................................................................................156
19.1.1.4.2 - Les architectures informatiques incompatibles .................................................................................................156
19.1.1.4.3 - Le codage incohérent des données....................................................................................................................156
19.1.1.4.4 - Les données textuelles ......................................................................................................................................158
19.1.1.4.5 - Les valeurs manquantes ....................................................................................................................................158
19.1.1.5 - Construire des modèles informatiques .......................................................................................................................158
19.1.1.6 - Evaluer les modèles informatiques ............................................................................................................................159
19.1.2 - SYNTHESE......................................................................................................................................................159
19.2 - LA DECOUVERTE DE CONNAISSANCES ........................................................................................................160
19.2.1 - LA DECOUVERTE DE CONNAISSANCES NON DIRIGEE .........................................................................160
19.2.1.1 - METHODOLOGIE DE DECOUVERTE NON DIRIGEE........................................................................................161
19.2.1.1.1 - Identifier les sources de données disponibles ...................................................................................................161
19.2.1.1.2 - Préparer les données pour l'analyse...................................................................................................................161
19.2.1.1.2.1 - Regrouper les données et les transformer.................................................................................................162
19.2.1.1.2.2 - Distribuer les données..............................................................................................................................162
19.2.1.1.3 - Construire et instruire le programme informatique ...........................................................................................163
19.2.1.1.4 - Evaluer le modèle informatique ........................................................................................................................164
19.2.1.1.5 - Appliquer le modèle informatique à de nouvelles données...............................................................................164
19.2.1.1.6 - Identifier les cibles potentielles pour la découverte de connaissances dirigée ..................................................164
19.2.1.1.7 - Générer de nouvelles hypothèses à tester..........................................................................................................165
19.2.1.2 - SYNTHESE...............................................................................................................................................................165
19.2.2 - LA DECOUVERTE DE CONNAISSANCES DIRIGEE...................................................................................166
19.2.2.1 - METHODOLOGIE....................................................................................................................................................166
19.2.2.2 - SYNTHESE...............................................................................................................................................................166
20 - L'EVALUATION ..........................................................................................................................................................167
21 - PRESENTATION RAPIDE DES TECHNIQUES......................................................................................................168

21.1 - ANALYSE DU PANIER DE LA MENAGERE.....................................................................................................168
21.2 - LE RAISONNEMENT BASE SUR LA MEMOIRE..............................................................................................168
21.3 - LA DETECTION AUTOMATIQUE DE CLUSTERS...........................................................................................168
21.4 - L'ANALYSE DES LIENS.......................................................................................................................................169
21.5 - LES ARBRES DE DECISION................................................................................................................................169
21.6 - LES RESEAUX DE NEURONES ..........................................................................................................................169
21.7 - LES ALGORITHMES GENETIQUES...................................................................................................................170
21.8 - LES AGENTS INTELLIGENTS OU KNOWBOT ................................................................................................170
21.9 - LE TRAITEMENT ANALYTIQUE EN LIGNE (TAEL)......................................................................................170
22 - ANALYSE DU PANIER DE LA MENAGERE ..........................................................................................................171
22.1 - PRESENTATION ...................................................................................................................................................171
22.2 - UTILISATION........................................................................................................................................................171
22.3 - FONCTIONNEMENT ............................................................................................................................................172
22.3.1 - CONSTRUIRE LE TABLEAU DES COOCCURRENCES ...............................................................................................172
22.3.2 - LIRE ET INTERPRÉTER LE TABLEAU ....................................................................................................................173
22.4 - LES REGLES..........................................................................................................................................................173
22.4.1 - GÉNÉRER DES RÈGLES ......................................................................................................................................173
22.4.2 - TYPOLOGIE DES RÈGLES ....................................................................................................................................175
22.4.2.1 - La règle utile ..............................................................................................................................................................175
22.4.2.2 - La règle triviale ..........................................................................................................................................................175
22.4.2.3 - La règle inexplicable..................................................................................................................................................175
22.5 - METTRE EN ŒUVRE LA TECHNIQUE .............................................................................................................176
22.5.1 - LA TAXINOMIE..............................................................................................................................................176
22.5.2 - LES ARTICLES VIRTUELS ............................................................................................................................176
22.5.3 - LES REGLES DE DISSOCIATION.................................................................................................................176
22.5.4 - LES SERIES TEMPORELLES ........................................................................................................................177
22.6 - EVALUER LES RESULTATS...............................................................................................................................177
22.6.1 - LA FRÉQUENCE .................................................................................................................................................177
22.6.2 - LE NIVEAU (OU TAUX) DE CONFIANCE ...............................................................................................................177
22.6.3 - LE NIVEAU DE SUPPORT ............................................................................................................................178
22.6.4 - LE TAUX D'AMÉLIORATION.................................................................................................................................178
22.7 - LES POINTS FORTS .............................................................................................................................................178
22.8 - LES POINTS FAIBLES..........................................................................................................................................179
22.9 - QUAND L'UTILISER ? ..........................................................................................................................................179
22.10 - SYNTHESE ..........................................................................................................................................................179
23 - LE RAISONNEMENT BASE SUR LA MEMOIRE..................................................................................................180
23.1 - PRESENTATION ...................................................................................................................................................180
23.2 - UTILISATION........................................................................................................................................................180
23.3 - FONCTIONNEMENT ............................................................................................................................................181
23.4 - METTRE EN ŒUVRE LE RBM ...........................................................................................................................183
23.4.1 - LA FONCTION DE DISTANCE .....................................................................................................................183
23.4.2 - LA FONCTION DE COMBINAISON .............................................................................................................185
23.5 - EXEMPLE ..............................................................................................................................................................185
23.6 - LES POINTS FORTS DU RBM.............................................................................................................................187
23.7 - LES POINTS FAIBLES DU RBM .........................................................................................................................187
23.8 - SYNTHESE ............................................................................................................................................................187
24 - LA DETECTION AUTOMATIQUE DE CLUSTERS...............................................................................................188
24.1 - PRESENTATION ...................................................................................................................................................188
24.2 - UTILISATION........................................................................................................................................................188
24.3 - FONCTIONNEMENT ............................................................................................................................................188
24.3.1 - METHODE DES K-MOYENNES....................................................................................................................188
24.3.2 - METHODE PAR AGGLOMERATION ...........................................................................................................189
24.4 - MISE EN ŒUVRE..................................................................................................................................................189
24.5 - EXEMPLES ............................................................................................................................................................189
24.5.1 - METHODE DES K-MOYENNES....................................................................................................................189
24.5.2 - METHODE PAR AGGLOMERATION ...........................................................................................................191
24.6 - EVALUER ..............................................................................................................................................................194
24.7 - LES POINTS FORTS .............................................................................................................................................194
24.9 - SYNTHESE ............................................................................................................................................................194
25 - LES ALGORITHMES GENETIQUES .......................................................................................................................195
25.1 - PRESENTATION ...................................................................................................................................................195
25.2 - UTILISATION........................................................................................................................................................195
25.3 - FONCTIONNEMENT ............................................................................................................................................195
25.3.1 - NOTIONS DE GENETIQUE ..........................................................................................................................195
25.3.2 - LES ALGORITHMES GENETIQUES.............................................................................................................196
25.4 - MISE EN ŒUVRE DES ALGORITHMES GENETIQUES ..................................................................................196
25.4.1 - PREPARATION DES DONNEES ...................................................................................................................196
25.4.2 - FONCTION D'EVALUATION ........................................................................................................................196
25.4.3 - GENERATION DES DESCENDANTS............................................................................................................197

25.4.4 - PROCESSUS DE SELECTION.......................................................................................................................198
25.4.5 - MANIPULATIONS GENETIQUES.................................................................................................................199
25.4.5.1 - Hybridation ................................................................................................................................................................199
25.4.5.2 - Mutation ....................................................................................................................................................................199
25.4.5.3 - Inversion ....................................................................................................................................................................199
25.4.6 - FIN DU PROCESSUS.....................................................................................................................................200
25.4.7 - SYNOPTIQUE ................................................................................................................................................200
25.5 - EXEMPLE ..............................................................................................................................................................202
25.6 - LES POINTS FORTS .............................................................................................................................................203
25.8 - SYNTHESE ............................................................................................................................................................203
26 - LES AGENTS INTELLIGENTS OU KNOWBOT ....................................................................................................204
26.1 - PRESENTATION ...................................................................................................................................................204
26.2 - UTILISATION........................................................................................................................................................204
26.3 - LES CONSEILLERS ELECTRONIQUES .............................................................................................................205
26.3.1 - LES AGENTS NEGOCIATEURS ....................................................................................................................205
26.3.2 - LES AGENTS VENDEURS .............................................................................................................................205
26.4 - KNOWBOT ET DATA MINING...........................................................................................................................205
26.5 - EXEMPLE ..............................................................................................................................................................206
26.6 - SYNTHESE ............................................................................................................................................................206
27 - LES RESEAUX BAYESIENS ......................................................................................................................................207
27.1 - PRÉSENTATION ...................................................................................................................................................207
27.1.1 - RAPPEL SUR LA THÉORIE DES GRAPHES..............................................................................................................207
27.2 - FONCTIONNEMENT ............................................................................................................................................208
27.3 - MISE EN PLACE ...................................................................................................................................................209
27.3.1 - PRÉPARATION DES VARIABLES ...........................................................................................................................209
27.3.2 - SÉLECTION DES VARIABLES................................................................................................................................209
27.3.3 - IDENTIFICATION DES DÉPENDANCES..................................................................................................................209
27.3.4 - MATRICE DES PROBABILITÉS .............................................................................................................................210
27.4 - LES POINTS FORTS .............................................................................................................................................210
27.4.1 - BONNE RÉSOLUTION .........................................................................................................................................210
27.4.2 - BONNE VISIBILITÉ .............................................................................................................................................210
27.4.3 - BONNE DÉCOUVERTE DE RELATIONS ..................................................................................................................210
27.5.1 - MAUVAISE ADAPTATION ....................................................................................................................................210
27.5.2 - PEU D’OUTILS ..................................................................................................................................................211
27.5.3 - MAUVAISE PERFORMANCE ................................................................................................................................211
28 - LES ARBRES DE DECISIONS ...................................................................................................................................212
28.1 - PRÉSENTATION ...................................................................................................................................................212
28.2 - FONCTIONNEMENT ............................................................................................................................................212
28.2.1 - CART...............................................................................................................................................................213
28.2.2 - C4.5.................................................................................................................................................................215
28.2.2.1 - Nombre de sorties d’un nœud variable ......................................................................................................................215
28.2.2.2 - Méthode de détermination de l’ordre des bifurcations...............................................................................................215
28.2.2.3 - Elagage ......................................................................................................................................................................215
28.2.2.4 - Ensemble de règles ....................................................................................................................................................215
28.2.3 - CHAID ............................................................................................................................................................217
28.2.3.1 - Développement de l’arbre..........................................................................................................................................217
28.3 - MISE EN PLACE ...................................................................................................................................................217
28.3.1 - PRÉPARATION DES DONNÉES .............................................................................................................................217
28.3.2 - ENRICHISSEMENT DES DONNÉES ........................................................................................................................218
28.3.3 - CRÉATION ET VALIDATION DE L’ARBORESCENCE ................................................................................................218
28.4 - LES POINTS FORTS .............................................................................................................................................218
28.4.1 - SIMPLICITÉ D’UTILISATION ................................................................................................................................218
28.4.2 - BONNE LISIBILITÉ .............................................................................................................................................218
28.4.3 - BONNE ADAPTATION .........................................................................................................................................219

28.5.1 - MAUVAISE PERFORMANCE ................................................................................................................................219

28.5.2 - COÛT DE L’APPRENTISSAGE ..............................................................................................................................219
29 - LES RESEAUX DE NEURONES ................................................................................................................................220
29.1 - PRÉSENTATION ...................................................................................................................................................220
29.2 - FONCTIONNEMENT ............................................................................................................................................220
29.2.1 - NEURONE FORMEL ............................................................................................................................................220
29.2.2 - RÉGLE D’ACTIVATION .......................................................................................................................................221
29.2.3 - ORGANISATION EN COUCHES .............................................................................................................................221
29.2.4 - RÉGLE D’APPRENTISSAGE .................................................................................................................................222
29.3 - MISE EN PLACE ...................................................................................................................................................222
29.3.1 - PRÉPARATION DES DONNÉES .............................................................................................................................222
29.3.2 - DÉTERMINATION DES ENTRÉES ET DES SORTIES ..................................................................................................222
29.3.3 - CONSTITUTION DE LA BASE D’EXEMPLES ...........................................................................................................222
29.3.4 - CODAGE DES ENTRÉES ......................................................................................................................................223
29.3.5 - OPTIMISATION DU JEU DE DONNÉES ..................................................................................................................223
29.3.6 - DÉTERMINATION DES PARAMÈTRES....................................................................................................................223
29.3.7 - PHASE D’APPRENTISSAGE .................................................................................................................................224
29.4 - LES POINTS FORTS .............................................................................................................................................225
29.4.1 - SOUPLESSE .......................................................................................................................................................225
29.4.2 - BONNE RÉSOLUTION .........................................................................................................................................225
29.4.3 - BONNE ADAPTATION .........................................................................................................................................225
29.4.4 - OUTILS DISPONIBLES ........................................................................................................................................225
29.5.1 - CODAGE DES ENTRÉES ......................................................................................................................................226
29.5.2 - LISIBILITÉ .........................................................................................................................................................226
29.5.3 - DÉTERMINATION DE LA TAILLE ..........................................................................................................................226
29.5.4 - NON OPTIMALITÉ ..............................................................................................................................................226
29.5.5 - PERFORMANCE .................................................................................................................................................226
30 - MISE EN PLACE ..........................................................................................................................................................227
30.1 - POSER LE PROBLÈME ........................................................................................................................................227
30.2 - RECHERCHE DES DONNÉES .............................................................................................................................227
30.3 - SÉLECTION DES DONNÉES ...............................................................................................................................228
30.4 - NETTOYAGE DES DONNÉES.............................................................................................................................228
30.5 - ACTIONS SUR LES VARIABLES........................................................................................................................228
30.6 - RECHERCHE DU MODÈLE .................................................................................................................................229
30.7 - EVALUATION DU RÉSULTAT ...........................................................................................................................229
30.8 - INTÉGRATION DE LA CONNAISSANCE..........................................................................................................229
31 - CHOISIR LE BON OUTIL ..........................................................................................................................................230
31.1 - CARACTÉRISTIQUES INFORMATIQUES.........................................................................................................231
31.2 - GAMMES DE PRIX ET DE PUISSANCE ............................................................................................................231
31.3 - ADÉQUATION DE L’OUTIL................................................................................................................................232
31.4 - NIVEAU DE COMPÉTENCE................................................................................................................................232
32 - DATA MINING ET ETHIQUE....................................................................................................................................233
33 - OUVERTURE À INTERNET ......................................................................................................................................235

33.1 - ACCÈS À DES PAGES STATIQUES....................................................................................................................235
33.2 - ACCÈS À DES PAGES DYNAMIQUES...............................................................................................................236
33.3 - LE WEB ET L'AIDE À LA DÉCISION .................................................................................................................237
34 - CONCLUSION ..............................................................................................................................................................238
34.1 - LES OUTILS D’AIDE À LA DÉCISION ..............................................................................................................238
34.2 - LES PERSPECTIVES POUR L’ENTREPRISE.....................................................................................................238
34.3 - CONCLUSION .......................................................................................................................................................239
35 - GLOSSAIRE ..................................................................................................................................................................240
36 - INDEX ............................................................................................................................................................................251
37 - TABLES .........................................................................................................................................................................254
37.1 - TABLE DES FIGURES..........................................................................................................................................254
37.2 - TABLE DES GRAPHIQUES .................................................................................................................................255
37.3 - TABLES DES TABLEAUX...................................................................................................................................255
38 - BIBLIOGRAPHIE ........................................................................................................................................................257
39 - SITES INTERNET ........................................................................................................................................................261

1 - INTRODUCTION
"L'information au bout des doigts"; un slogan publicitaire apparu au début des années 1990
qui reflétait bien le fait que les entreprises commençaient de plus en plus à s’intéresser à
l’informatique décisionnelle.
L’outil client du Data Warehouse a pour principal objectif de permettre à un utilisateur

d’accéder de manière simple et ergonomique à un serveur de données et de valoriser
l’information récupérée. Cet outil d’aide à la décision doit répondre aux différents besoins
des utilisateurs.
Les requêteurs leur permettent en toute autonomie un accès à l'information en libre service
sans se soucier des chemins d'accès à celle-ci. Ils veulent également analyser les données
mises à leur disposition et visualiser les informations (les indicateurs) par rapport à
différents axes d’analyse ce qui nécessite de s'appuyer sur une information pré-packagée et
fortement structurée. Les outils OLAP (On Line Analytical Processing) répondent à ces
besoins. Les outils de Data Mining vont plus loin et permettent aux utilisateurs "métier"
d'extraire de la connaissances de ses données grâce des mécanismes d'induction.

2 - LA PROBLEMATIQUE DE L'ENTREPRISE
2.1 - INTRODUCTION
« La Problématique de l’Entreprise », ce titre amène naturellement à définir la position de
l’entreprise par rapport au sujet « le Datawarehouse, le Datamining » et définir en quoi
celle-ci est concernée. Plus précisément, montrer comment ces techniques d’informatique
décisionnelle sont une réponse au problème de prise de décision de l’organisation au vu de
son contexte, de ses contraintes, de ses objectifs poursuivis sur les plans sécurité,
développement et rentabilité.
Nous proposons de répondre à cette problématique en décrivant :
un modèle « du système décisionnel de l’entreprise »,

et le contenu informatif de ce système décisionnel..
Nous commençons par définir l’entreprise, le décideur, et les niveaux de préoccupation du

décideur.
2.1.1 - L’ENTREPRISE
Dans un souci d’exhaustivité, nous nous appuyons sur le schéma des secteurs institutionnels
ci-dessous.
Sociétés et
Ménages
quasi-
Institutions
Financières
Sociétés
d'Assurance
Administratio
n Publique
Administratio
n Privée
Marché
Tableau 1 : les secteurs institutionnels

Nous désignons donc sous le terme « Entreprise » toute organisation humaine devant gérer
sa raison d’être et/ou sa pérennité au travers des objectifs cités ci-dessus (sécurité,
développement, rentabilité). Par voie de conséquence, cette organisation humaine est dotée
d’un centre de décision.
Ainsi, par le terme « entreprise », nous couvrons :
chacun des secteurs institutionnels de la comptabilité nationale (Français et

Etrangers).
Les Sociétés et quasi sociétés

Les Institutions Financières
Les Sociétés d’Assurance
Les Ménages
Les Administrations Publiques
Les Administrations Privées.
les associations (Françaises et étrangères).

toute autre organisation que celles citées ci-dessus.
La figure « Les secteurs institutionnels » illustre les relations de marché ou les relations
concurrentielles et les relations non concurrentielles de la part des administrations.
La généralisation du concept « entreprise » s’appuie sur la similitude de problématique

quand il s’agit de conduire une organisation à travers le temps et l’espace dans un contexte
en perpétuelle mouvance sachant que la prise de décision ne peut relever du réflexe.
Trois exemples de problème à résoudre ou de défi à relever pour des organisations
appartenant à des secteurs institutionnels différents.
Objectif de
Contrainte
Développement
Société Gagner x% de part de Taux de rémunération du => Recherche de Solution
Marché capital de y% fixé par les
actionnaires
Administration Répondre à l'augmentation Travailler à Budget => Recherche de Solution
(Secteur Hospitalier de la demande Constant
Français )
Association à but Augmenter la qualité d'un Résultat de l'exercice = 0 => Recherche de Solution
non lucratif service
Tableau 2 : exemple de défi à relever par chaque type d’organisation

Remarque : l’objectif de rentabilité d’une association est assimilé à l’équilibre financier de

l’exercice.

2.1.2 - LE DECIDEUR
Dans l’organisation ainsi définie, le décideur peut-être le responsable de cette organisation

ou le responsable d’une fonction de cette organisation. Nous associons le terme
« Décideur » et la responsabilité vis à vis de la pérennité de l’organisation.
2.1.3 - LES NIVEAUX DE PREOCCUPATIONS DU DECIDEUR
Thomas Gilbert énonce une succession de niveaux de préoccupation de la part du dirigeant

d’entreprise que la figure ci-dessous présente sous forme de pyramide. Il décompose cette
pyramide en 3 parties :
Partie 1, ( niveau 1 ) : la philosophie personnelle du dirigeant, présente dans la tête

du dirigeant.
Partie 2, ( niveaux 2 à 4 ) constituant la cohérence et la pérennité de l’entreprise.
Partie 3, ( niveaux 5 à 7 ) constituant la partie opérationnelle de l’entreprise.
Les 7 Niveauxde Préoccupation du Décideur, selon Thomas Gilbert

1 Philosophie = Pour Quoi, le Futur
2 Culture = Ensemble des valeurs de l'entreprise
3 Politique = Relations de Pouvoir et Organisation du pouvoir
4 Stratégique = Objectifs à atteindre à moyen et long terme
5 Tactique = Coordination des moyens à court terme
6 Logistique = Moyens & Méthodes relatifs à l'organisation
7 Tâche = Niveau d'exécution : travail à réaliser
Figure 1 : les Niveaux de préoccupation du décideur (selon Thomas Gilbert)
Nous adoptons cette échelle des niveaux de préoccupation pour définir le contexte général
de la prise de décision dans l’entreprise et nous disons que l’espace des décisions du
décideur est structuré par les niveaux de ses préoccupations.

2.1.4 - RESUME
Le terme « Entreprise » désigne toute organisation humaine devant gérer sa

raison d’être et/ou sa pérennité au travers des objectifs de sécurité, de
développement, de rentabilité et se trouvant par voie de conséquence dotée
d’un centre de décision.
Le terme « Décideur » est celui qui engage la pérennité ou la raison d’être de

l’Organisation.
L’espace des décisions du décideur est structuré par les niveaux de ses
préoccupations.
2.2 - LE SYSTEME DECISIONNEL DE L’ORGANISATION
Cette première partie va s’attacher à montrer les aspects du « Système Décisionnel de

l’Organisation » où le décideur et la machine ( le système informatique ) interagissent pour
permettre au décideur de prendre la meilleure décision. Nous définirons aussi ce qu’est la
meilleure décision.
Cette partie s’est largement inspirée de l’ouvrage de Pierre Lévine et Jean Charles Pomerol ,
1990, Systèmes interactifs d’aide à la décision et systèmes experts, Editions Hermès. Ces
auteurs s’appuient sur les travaux de H.A. Simon et de Newell aux USA et de Le Moigne
qui a popularisé ces travaux en France. Nous ferons référence de temps à autre à ces
auteurs. Toutefois, l’objectif n’est pas de redire une théorie de la décision, mais de présenter
les concepts utiles à la compréhension et à la construction du système décisionnel de
l’organisation.

2.2.1 - LA RESOLUTION DE PROBLEME
2.2.1.1 - LE PROBLEME
Le mot « problème » est pris dans une acception très générale. Nous disons qu’un sujet est
confronté à un « problème » dès qu'il doit produire une action non réflexe sur son
environnement. Exemple :
Changer le système informatique de l’entreprise.

Racheter une P.M.E.
Mettre sur le marché une nouvelle gamme de produits.
Remarques :
Le Sujet : au sens du terme « Entreprise » défini au paragraphe précédent.

L’Environnement : au sens le plus large: environnement personnel, relationnel,
marché, financier, législatif, politique, etc..
A ce niveau d’exposé, nous ne disons rien sur l’état amont à la résolution du problème.
2.2.1.2 - LA RESOLUTION DU PROBLEME
D’après Simon et Newell, la résolution d'un problème donné s'effectue en progressant, de

situation en situation, d'une situation initiale à la solution. Tout se passe, un peu, comme si
le problème consistait à traverser une rivière sur des pierres.
S0
S2 S1
S3
S4
St
Figure 2 : comment traverser ?

Partant de la situation initiale (ou état) S0, comment atteindre la situation St (ou état
terminal, ou la solution) ?
2.2.1.3 - L’ESPACE DE RESOLUTION
Aussi, pour Simon et Newell, la résolution du problème passe par la définition d’un espace
de résolution. Cet espace de résolution contient :
l’espace des états,

les opérateurs de passage entre états,
l’état initial,
le ou les état(s) solution,
les informations disponibles et relatives
à chaque état,
augmentées des calculs relatifs à l'état courant,
à l’avancement de la résolution,
au cheminement de la résolution,
aux états précédemment rencontrés
à l’environnement.
2.2.1.3.1 - L’espace des états
Dans le cas de la rivière, les états sont les pierres.

L'ensemble des états s'appelle l'espace des états.
2.2.1.3.2 - Les Opérateurs
En s’appuyant sur le même exemple, pour passer d'une pierre à l'autre, je saute.
De S0, je peux atteindre certaines pierres et pas d'autres, ainsi à chaque état Si j'associe les
états Sij que je peux atteindre à partir de Si. Pour le passage de Si à Sj1, j'utilise un
opérateur (de saut, en l'occurrence).
Mais je peux me tromper et arriver sur une pierre à partir de laquelle mes forces
m'interdisent d'atteindre la suivante. Je reviens alors en arrière et j'essaye un autre chemin
(stratégie d'exploration avec retour arrière ou backtracking strategy).
Chaque opérateur me fait passer d'un état à un autre qui me rapproche, en principe, de St.
2.2.1.3.3 - La Réduction de la Différence
La méthode générale pour choisir un opérateur ou construire un opérateur (raisonnement)

consiste à essayer de combler le fossé entre les états Si et Sj.

C'est ce que Simon appelle la « réduction de la différence ». En définitive, c'est du

rapprochement mental entre Si et Sj que naît l'opérateur.
Les raisons qui me font passer d'un état à l'autre résultent d'une appréciation des différences
entre ces états et de l'idée que je me fais du chemin qui me permettra de passer.
2.2.1.3.4 - l’Heuristique.
L'ensemble du procédé qui me permet de me « promener » dans l'espace d'états, s'appelle

une heuristique.
2.2.1.3.5 - En résumé
La résolution de problème part d'une représentation formalisable en un espace

d'états et d'une aptitude à explorer intelligemment cet espace d'états.
Les états, les opérateurs permettant de passer d'un état à un autre et les
informations dont on peut disposer à chaque état, forment une représentation
implicite du problème.
C'est cet ensemble que Newell et Simon appellent l'espace de résolution.
2.2.2 - LE PARADIGME1 STI

2.2.2.1 - STI
Le sigle « STI »2 ou « Système de Traitement de l’Information » désigne le contexte général

du traitement de l'information et de la résolution de problème.
L’introduction de ce contexte général s’inscrit dans des recherches sur les liens entre la
théorie de l’information, la théorie de la gestion des organisations, la théorie de la décision
et de la gestion.
1
« Paradigme », du grec « paradigma », signifie « modèle »; Le mot paradigme sera pris au sens de T.S.Kuhn ( rôle des
paradigmes dans l’histoire des sciences ), c’est à dire, il représente l’ensemble des contingences environnementales dans
lequel évolue le système.
2
On trouvera dans Demailly et Le Moigne (1986) de nombreux éclairages sur la génèse du paradigme, en particulier un
article historique de Simon (1986 a).

Le paradigme STI s’appuie sur 3 postulats énoncés par Simon :
Postulat 1 :
« Il est possible de construire une théorie de l'esprit au niveau du traitement de
l'information. Théorie où les processus informationnels en sont les fondements
premiers »
Postulat 2 :
« L'étude des processus décisionnels est possible à un niveau d'agrégation qui
est celui du traitement de l’information. c'est-à-dire celui de la manipulation
des signes ».
Postulat 3 :
« Pour décrire le processus du traitement de l’information dans un STI, il est
posé, en attendant la preuve du contraire, que le cerveau est l’archétype3 des
STI. ».
Remarque : Ce dernier postulat est le corollaire du postulat posé par Simon : « Pour
résoudre des problèmes avec des machines, faisons comme les gens font ».
Remarquons qu’à ce niveau d’agrégation, on ne décrit pas les phénomènes physiologiques

du cerveau, mais on s’intéresse aux flux d’informations. A des niveaux d’agrégation plus
bas, des modèles connexionnistes peuvent être beaucoup plus proche de la réalité du
fonctionnement des neurones.
2.2.2.2 - LA REPRESENTATION DU STI
Newell et Simon, Le Moigne et Demailly proposent la représentation suivante du

paradigme STI .
Emetteurs /
Mémoires Processeurs
Récepteurs
Environnement
Figure 3 : le Système de Traitement de l’Information
3
« Archétype », du grec « arkhetupon », signifie modèle original ( premier) ou modèle idéal sur lequel est fait un ouvrage ou
une oeuvre.


Ainsi, cette représentation s’appuie sur les postulats énoncés ci-dessus.

Le cerveau reçoit des stimuli par le biais de nos cinq sens. Ces stimuli sont convertis, grâce
à des médiations chimiques, en signaux électriques ou ioniques transmis par les neurones.
L'information est donc reçue par nos récepteurs et circule.
Une partie de cette information est stockée dans la mémoire. ( les processus physiologiques
et l’organisation plus ou moins connus opérant le stockage en mémoire ne nous intéressent
pas à ce niveau de considération.).
Les stimuli reçus et transmis au cerveau, ainsi que les informations mémorisées, sont
ensuite traités pour produire des réponses nerveuses qui actionnent nos muscles.
2.2.2.3 - MATIERE TRAITEE : SIGNES ET SYMBOLES
Le STI manipule (traite) des signes qui sont des formes (un ensemble de spécifications
physiques) reconnaissables et reproductibles.
Ces signes, comme les impulsions électriques (ou ioniques) transmises dans les neurones,
n'ont pas de sens intrinsèque, c'est l'observateur ou le sujet qui donne la signification aux
signes, les transformant alors en symboles.
2.2.2.4 - LES DECALAGES ESPACE, TEMPS, FORME DU STI
La mémoire est le système de décalage des signes dans le temps.

Le module de réception / émission est le système de décalage des signes dans l'espace.
Les processeurs assurent la « computation » sur les signes (loi de composition interne), le
décalage de la forme.
2.2.2.5 - LA DEFINITION DE SIMON
Simon définit le STI comme un modèle comportemental à deux archétypes : le cerveau et

les ordinateurs; l’adjectif comportemental faisant référence au postulat 3.
2.2.2.6 - EN RESUME
« STI » ou « Système de Traitement de l’Information » est le sigle qui désigne le

contexte général du traitement de l'information et de la résolution de problème.
Ce STI peut être vu comme un modèle à deux archétypes : le cerveau et les

ordinateurs.


2.2.3 - L’ORGANISATION ET LE STI
Nous représentons par le schéma ci-dessous la définition du STI de Simon. Nous prenons ce
schéma comme base de la structure décisionnelle de l’organisation.
Niveau des
Représentations
Environnement
Mentales de l'Organisation
Machine Décideur
Mémoires / Processeurs Compétences
Intellectuelles /
Environnement
Intérieur et Extérieur de l'Organisation
Figure 4 : structure du Système décisionnel (1)
2.2.3.1 - LA PERCEPTION DE L’ENVIRONNEMENT
La représentation mentale que nous nous faisons de l’environnement est alimentée par :
notre perception directe de l’environnement (Les 5 sens)

notre perception de l’environnement au travers des informations transmises par la
machine.
et elle s’exprime au travers d’un modèle.

2.2.3.2 - LA REPRESENTATION MENTALE ET LES NIVEAUX DE

PREOCCUPATION
Ainsi, le schéma de la structure décisionnelle évolue de la façon suivante :
Niveau des
Représentations
Environnement
Mentales de l'Organisation
Niveaux de
Préoccupations
Machine Décideur 1 Philosophie
Mémoires / Processeurs Compétences 2 Culture
Intellectuelles /
3 Politique
4 Stratégique
Environnement 5 Tactique
Intérieur et Extérieur de l'Organisation 6 Logistique
7 Tâche

L’échelle des niveaux de préoccupations jouera le rôle de référentiel. (Référentiel non
définitif dans son contenu).
2.2.3.3 - LES COMPOSANTES DU MODELE
Les composantes de l’environnement qui entrent dans la représentation sont des

composantes sélectionnées dans l’ordre des préoccupations et sélectionnées parmi celles qui
à un instant données semblent rendre compte des objectifs.
Calendrier des tâches à exécuter

de niveau de Chiffre d’affaires, de stocks, de besoin de fonds de roulement,
liste des objectifs fixés

2.2.3.4 - L’ELEMENT DECLENCHEUR DU PROBLEME

2.2.3.4.1 - Variation entre 2 évaluations de la représentation du modèle
La représentation mentale est évaluée au travers des valeurs des composantes sélectionnées
dans le modèle ou au travers du résultat d’une fonction d’évaluation intégrée dans le
modèle. L’élément déclencheur ou Evénement déclencheur d’un problème à résoudre sera
la perception d’une variation de valeurs entre 2 évaluations successives de la représentation.
De plus, la variation entre 2 évaluations sera rapproché d’un seuil. Ce seuil déterminera le
déclenchement ou non d’une action de résolution de problème.
Exemple :
« diminution du Chiffre d’affaires de 5% sur 3 mois par rapport à la même période

de l’année précédente.»
2.2.3.4.2 - Variation de l’état des préoccupations
De même, on pourrait dire qu’une variation de l’état des préoccupations peut déclencher un
processus de résolution de problème.
Exemple :
Vouloir passer de la 3ème place à la position de leader sur son marché. Cette
volonté va entraîner une étude de faisabilité, avec différents scénarios
possibles, il y aura choix et éventuellement une critique ultérieure de la
décision. Cette volonté va entraîner la création d’un espace de résolution.
Vérifier une hypothèse.
etc....
2.2.3.5 - LE PROJET DE L’ORGANISATION
Repérer les variations du modèle de la représentation mentale sous-entend faire appel à une
norme préétablie auprès de la quelle il est possible de définir des seuils au-delà desquels une
action doit être entreprise.
Cette norme supérieure ou ce référentiel est le projet. Le projet peut-être :
La raison d’être de l’organisation : Exemple : La Vente par correspondance des

produits de beauté.
Des projets stratégiques, des sous projets.
Nous intégrons maintenant le projet dans le schéma décisionnel. C’est lui le référentiel
du modèle de la représentation mentale de l’environnement.
Niveau des Projet
Représentations
Environnement Espace de Résolution
Mentales de l'Organisation de Problèmes
Niveaux de
Préoccupations
Intellectuelles /
3 Politique
4 Stratégique
7 Tâche
2.2.3.6 - EN RESUME
Le Modèle du système décisionnel se décompose :
Niveau Conceptuel :
les Représentations
du Projet,
du modèle de la position de l’organisation dans l’environnement,
de l'espace de résolution de problème
des Niveaux de Préoccupations
Niveau Physique :
L’Homme,
La Machine
l’Environnement.

2.2.4 - LA DECISION
Soit l’axiome suivant : entre les deux issues mutuellement exclusives d'une alternative,
l'individu X qui choisit une issue à la suite d'un processus mental, appelé réflexion, aurait pu
tout aussi bien choisir l'autre.
Nous appelons ce choix : « décision » ou plus précisément « prise de décision ».

Nous considérons toujours qu'il y a correspondance biunivoque non ambiguë entre une
prise de décision et un problème que l'on cherche à résoudre.
2.2.4.1 - LES PHASES DE LA PRISE DE DECISION
Simon distingue quatre phases dans le processus de décision :
l'information ou le renseignement
le décideur se met en quête d'informations relatives aux questions qui le

préoccupent. : Quelles sont les solutions possibles ? Que font les concurrents ?
Quelle est la pratique dans les entreprises qui ont un métier voisin ?...
Comment se segmente la clientèle ? etc...
la conception
Dans un deuxième temps, le décideur construit des solutions, imagine des
scénarios, ce qui peut l'amener à rechercher de l'information supplémentaire.
le choix
Ensuite, le décideur choisit entre les différentes actions qu'il a été capable de
construire et d'identifier pendant la phase de conception.
l'évaluation des choix précédents.

Après le choix, et dans la mesure où la décision s'intègre dans un processus
dynamique ; Une rétroaction (feed-back) intelligente permet de corriger bien
des erreurs et, sur le déroulement d'un processus décisionnel.
Remarques : Les étapes décrites par Simon ne se déroulent pas forcément suivant un
processus purement séquentiel, il peut y avoir des retours en arrière. Assez
fréquemment l'information et la conception contiennent déjà le choix dans la mesure
où le décideur privilégie assez vite une seule action parmi celles possibles. Celle-ci
est ensuite la seule documentée et construite.

2.2.4.2 - ECHELLE DES PREOCCUPATIONS ET ECHELLE DE

NORMALISATION DES DECISIONS
Simon indique que les décisions dans les entreprises se répartissent sur toute la longueur
d'une échelle qui va du moins normalisé au plus normalisé. A cette échelle de normalisation
de Simon, nous faisons correspondre l’échelle des préoccupations du Manager ou du
Décideur. Nous faisons correspondre aussi, pour chaque niveau de préoccupation, une
période indicative pour laquelle il existe une probabilité non nulle d’apparition de problème
entraînant une prise de décision. Ces périodes, indiquées sur la figure ci-dessous sont
données pour fixer un ordre de grandeur. Les rapports entre les ordres de grandeurs
caractériseraient davantage la probabilité d’apparition d’une décision quand on passe d’un
niveau de préoccupation au niveau voisin.
Niveaux de Echelle de Période de Impact Domaines

Préoccupations Normalisation des Référence temporel Impactés
Décisions
1 Philosophie Très faiblement

Normalisée
2 Culture Année(s) Long terme Organisati
on
3 Politique
4 Stratégique Peu Normalisée Année(s) Moyen -

Long terme
5 Tactique Mois Moyen Terme Fonction /
Service
6 Logistique Semaine
7 Tâche Bien Normalisée Jour, Heure Ponctuel Poste de

Travail
Figure 7 : échelle de Normalisation des décisions

Niveaux de Echelle de Echelle de Niveaux

Préoccupations Normalisation des d'Agrégation / ou de
Décisions Synthèse

Normalisée
2 Culture
3 Politique
4 Stratégique Peu Normalisée Maximum
5 Tactique
6 Logistique Maximum pour

une fonction /
7 Tâche Bien Normalisée service
atomique
Figure 8 : niveaux de préoccupations et niveau d’agrégation

De même, nous donnons un espace-temps d’impact des décisions prises selon le niveau de
préoccupation et le niveau d’agrégation croissant vers la partie haute des niveaux de
préoccupations.
Quelques caractéristiques de ces décisions4
Décision Bien Normalisée Peu Normalisée

Fréquence Elevée faible ou peu élevée
d’où l’effort à normaliser le
processus
Caractère Routine exceptionnel par sa nouveauté
ou son enjeu
Programme Un programme au Formalisée la démarche de
déroulement fixé : Il existe résolution du problème que se
un processus connu et pose le décideur nécessiterait
explicitable permettant de un gros effort.
traiter les informations
« intrantes » dans le STI.
Démarche Disparue Utilisée
Heuristique
Exemples facturations, achats, etc. le choix d’une campagne de
publicité.
4
A Décision bien normalisée et peu normalisée correspondent en anglais les expressions « Programmed decision » et « Non-
Programmed decision ». Cf Levine et Pommerol
Tableau 3 : tableau de décisions normalisées

2.2.4.3 - STRUCTURATION DU PROCESSUS DE DECISION

2.2.4.3.1 - Introduction
Les parties hautes de l’échelle des préoccupations relèvent par nature de processus de
décisions peu ou faiblement normalisés. La question devient :
« Comment ramener une décision au caractère exceptionnel à un ensemble de décisions

normalisées ? »
Aux questions particulières de telle organisation : Comment remplacer le Directeur

financier partant en retraite ?, Comment situer l’entreprise sur son marché des techniques de
séparation des jaunes et des blancs d'œufs ?, Comment créer une alliance stratégique avec
un leader de la pâtisserie industrielle ?, Comment mener une certification ISO 9000 ?, etc.
A ces questions particulières, des méthodes sont élaborées, affinées en permanence pour
répondre au mieux aux besoins du décideur. C’est à ce niveau que nous faisons la jonction
avec les cabinets de conseils; exemple : Ernst & Yung pour le recrutement d’un cadre
financier, le Boston Consulting Group proposa la première matrice de positionnement sur
un marché; AB Conseils SA spécialisé dans la conduite des alliances stratégiques ou la
maîtrise des facteurs clés de succès, l’AFAQ et la démarche qualité.
Ces cabinets « conseil » ou « d’aide à la décision » intègrent un grand nombre d’exemples

d’organisation aux prises avec tel type de problème. Ils font évoluer leurs méthodes et leurs
modèles en intégrant les retours d’expérience. Ces organismes ou cabinets apportent une
aide auprès du décideur dans son processus décisionnel.
Ce qui est vrai pour les cabinets conseils en organisation l’est aussi pour les centres de
recherche universitaire ou industriel qui ouvrent de nouveaux espaces de résolution de
problèmes dans les domaines techniques et scientifiques.
L’objectif est de normaliser le plus grand nombre de problèmes dans les

niveaux hauts des préoccupations.
Ainsi, cet objectif amène à considérer une échelle propre de décision normalisée
pour chaque niveau de préoccupations.
Par extension, nous pouvons réaffecter une échelle de normalisation de décisions dans les
niveaux bas des préoccupations en intégrant le management des personnes.
Le passage de l’organisation taylorienne à un management plus participatif, d’une

organisation pyramidale à une organisation par projet amène à introduire de la

« complexité » dans les niveaux opérationnels et nous le verrons dans le paragraphe sur la
rationalité limitée.

Nous considérons que le dernier étage l’exécution de la tâche sur le poste de travail est
absorbé dans un management d’équipe au niveau des du service incluant
peu normalisée
Echelle de
Niveaux de Normalisation des
Préoccupations Décisions peu normalisée
Très faiblement
Philosophie Normalisée peu normalisée
Culture bien n. peu normalisée
Politique bien n. peu normalisée
Stratégique Peu Normalisée bien n.
Tactique bien n.
Logistique bien n.
Tâche Bien Normalisée
Figure 9 : échelle de normalisation des décisions
2.2.4.3.2 - Rôle des conseils extérieurs
Un rôle de structuration et de normalisation des problèmes d’organisation qui se posent que

quelques fois dans une entreprise mais qui sont fréquents si on considère une population
d’organisations.
Ce Rôle est interactif ; c’est parce que le cabinet Conseil a accompagné une entreprise en lui
proposant telle démarche pour résoudre son problème que ce même cabinet peut améliorer
sa méthode, ses modèles grâce au retour d’expériences.
2.2.4.3.3 - Processus de structuration et de Normalisation

2.2.4.3.3.1 - Définitions
Structure Canonique
Une structure canonique est une structure facile à trouver ou à retrouver pour
une large classe de sujets, partageant une même culture.
Exemple : La décision d'accorder un prêt à un client est en général mal
structurée; car il n'y a pas de représentation canonique des clients et de leurs
capacités à rembourser. Cependant lorsqu'un système expert est réalisé pour
faire ce travail la décision devient normalisée, mais auparavant elle aura été
structurée.
Qualité de la structuration
Le problème, ou la décision, paraît bien structurée lorsque la formulation du
problème, ou des actions possibles, s'effectue à l'aide d'un modèle et d'une
représentation canonique.
Exemple :
la paye est structurée par les modèles comptables ;
l'approvisionnement par certains modèles de la recherche opérationnelle, etc.
Structuration et Modélisation.
La structuration est la notion descriptive du processus de résolution.
La modélisation est davantage la décomposition en fonctions.
Ce sont les facettes d'un même processus qui permet de rendre intelligible un
contexte de décision.
2.2.4.3.3.2 - Développement du Processus

Au départ la décision observée est baptisée spontanée, automatique, intuitive, on se plaît à y
reconnaître créativité, expérience, émotion, bref il s'agit de décisions non structurées.
Ensuite, quand on le peut, on passe à la phase de structuration et de modélisation
Normalisation
impossible
avec la
structure
choisie
Décision non Structuration

structurée Modélisation
Normalisation
Figure 10 : structuration & normalisation

Schéma : Branche Basse de la figure « Structuration et Normalisation »
Les décisions empruntant le chemin du bas sont celles pour lesquelles la

normalisation suit aisément la structuration et la modélisation, elles se
présentent fréquemment et entrent dans les modèles classiques de comptabilité,
de programmation linéaire, ou de tout autre modèle normalisé.
Ici, la structuration canonique conduit à des programmes classiques qui
fonctionnent bien. La procédure de décision devient routine.
Schéma : Branche Haute.
Dans la branche du haut, on trouve les opérations qui dans leur modélisation
classique ne sont pas solubles par des algorithmes efficaces si bien que le
problème est structuré, mais la décision est en général prise « à l'expérience »,
à la suite de procédures essai erreur par des professionnels qualifiés.
Toutefois , un problème ou une décision peut passer du chemin du bas au

chemin du haut si l'on refuse la structuration « dominante ».
2.2.4.4 - LA REPRESENTATION
Structurer, mais d'après quel modèle ?
Dans cette optique, le problème central est celui de la modélisation, c'est-à-dire de la

structuration des problèmes non structurés.
Pour le décideur, le problème à résoudre ne se présente en général pas sous forme

d'opérations simples; il y a un travail pour passer de la perception à la représentation.
2.2.4.4.1 - Représentation, Structuration, Process
L'approche « intelligence artificielle » a permis de bien distinguer entre représentation, c'est-

à-dire une certaine structuration descriptive de la connaissance (matrice du tableur ou les
fiches d'un logiciel comme hypercard) et le processing (par exemple, le calcul sur les
cellules du tableur) qui est le modèle, en fait l'application au sens mathématique du terme.

2.2.4.4.2 - Les Niveaux de Représentations
Ce passage de la perception à la représentation n'est pas immédiat. D'autant plus que la

représentation admet aussi des niveaux qui correspondent plus ou moins aux niveaux de
traitement.
Les différents niveaux de représentation que l'on peut observer dans la résolution de
problèmes sont décrits dans la figure ci-dessous avec des exemples, les exemples du niveau
n+l correspondent à des sous représentations du niveau n.
Théorie Recherche Opérationnelle

Géométrie
Statistiques
Base de Données
Méthode Programmation Linéaire
Géométrie analytique
Régression
Relationnelle
Modèle Ecriture des équations ( contraintes, fonction économique )
Repères
Equations et Courbes
Choix des variables
Données Nombres réels ou nombres entiers
Domaine de variation des coordonnées
Séries de données statistiques
Domaines des attributs
Tableau 4 : les niveaux de représentation
La structuration apparaît comme un préalable à la normalisation.
Ainsi, pour un problème donné, faisons le choix d'une résolution par la recherche
opérationnelle et optons pour la programmation linéaire.
Une représentation est construite à partir des concepts pertinents ou objets :
machines, ouvriers, nombre d'heures ouvrées, etc., ces objets sont liés dans un modèle
qui met sous forme d'équations les contraintes et donne la fonction économique.

Enfin dans un dernier niveau, on définit quelles seront les variables entières et les variables
continues.

Il va de soi que les niveaux précédents ne sont pas indépendants entre eux et que certains
choix sont simultanés, comme par exemple celui des objets et des valeurs, parfois même la
représentation modèle-objets-valeurs se forme de façon concomitante dans la tête d'un
individu.
Notons aussi que la détermination de la théorie et de la méthode stricto sensu se font

souvent ensemble, si bien qu'on peut les regrouper en un terme de méthode ou mieux, de
planification.
Nous désignerons les deux niveaux inférieurs de représentation sous le nom de modèle ou
modélisation.
Cette partition en deux niveaux correspond alors à ce qui a été observé lors de la résolution
de problèmes, le niveau supérieur étant celui des plans de Newell et Simon (1972).
Comme nous venons de le dire, l'indépendance entre les niveaux de représentation n'est pas
de règle.
Piaget a même montré que les niveaux de représentation ne s'acquièrent que

progressivement, en passant de l'un à l'autre grâce à un processus « d'abstraction
réfléchissante ».
2.2.4.4.3 - Equilibration et Modèles
Pour Piaget, toute action se place dans le cadre d'une représentation (pour nous d'un
«modèle») qui s'enrichit par «assimilation» (attraction de nouveaux objets par le modèle) et
«accommodation» (particularisation du modèle), l'ensemble de ce processus
d'enrichissement en fonction des expériences (actions et résultats des actions) s'appelle
«l'équilibration».
L'échec de l'équilibration va conduire à un autre modèle suivant le schéma suivant inspiré
de Courbon et Stabell (1986) et Ramaprasad (1987).
Action Résultat de espéré renforcement

l’action du modèle
différent de équilibration spécialisation
celui espéré réussie ou
généralisation
du modèle
équilibration construction
impossible d’un nouveau
modèle par
abstraction

réfléchissante.
Tableau 5 : Modèle-Action-Equilibration

2.2.4.4.4 - Les Niveaux de Représentation
Il nous semble que chaque niveau de représentation, sauf le plus bas, est « fixable »,
le niveau modèle,
le niveau méthode
le niveau théorie.
A chacun de ces niveaux de fixation correspondent des STI différents.
STI 1 : Quand la méthode est fixée, le système doit posséder une mémoire des modèles et
des processeurs de modèles.
STI 2 :Quand le modèle est fixé, les objets le sont aussi ipso facto, seules les valeurs
peuvent changer.
Dans ce cas là, des processeurs arithmético-logiques simples sont suffisants pour procéder.
Exemple :
dans les anciennes bases de données de type fichier, on est juste capable d'ajouter
des données et de faire des interrogations prédéterminées.
2.2.4.4.5 - Modèle
Définition :
Un modèle a toujours une traduction immédiate en un programme informatique.

Le modèle correspond au processing et la computation s'exerce sur les
représentations.
2.2.4.4.6 - 1er Espace de résolution
Nous avons donc un premier espace de résolution formé de modèles. C'est-à-dire qu'un état
de cet espace est un modèle, les opérateurs de cet espace sont des opérateurs de choix de
modèles, la réduction de la différence se réfère à la validité des modèles. Ce système de
production fonctionne pour le choix du modèle.

2.2.4.4.7 - 2d Espace de Résolution
A un étage au-dessous, pour un modèle fixé, le système, afin d'évaluer les résultats,
fonctionne dans un espace de résolution formé d'états du type objets valués, un objet
valué étant un couple (objet, valeur).
Les opérateurs portent sur les valeurs, la réduction de la différence porte sur le
résultat.
Disons enfin qu'il existe des STI pour lesquels les méthodes ne sont pas fixées. C'est le cas
par exemple en statistique.
Le système vous donne le choix, méthode de Box-Jenkins ou l'analyse des données, puis
vous choisissez votre modèle relatif à la méthode sélectionnée, enfin vous choisissez vos
séries.
En résumé,
les représentations forment le bagage culturel acquis qui nous permet

d'interpréter nos perceptions et d'effectuer une première structuration statique
des informations qui nous parviennent de l'environnement.
Une représentation est structurée quand on peut lui associer un modèle.
Les 4 Niveaux de représentation peuvent se décomposer en 2 niveaux sur

lesquels des STI peuvent opérer la résolution de problème par démarche
heuristique :
1. Le niveau méthode-Modèle
2.Le niveau Modèle-Objet valué.

2.2.5 - LE PRINCIPE DE RATIONALITE LIMITEE

2.2.5.1.1 - Les Modèles à Fonction optimisée
Les modèles des mathématiques et de la recherche opérationnelle, qui ont représenté
jusqu'ici la base de la majorité des SIAD, reposent sur les hypothèses suivantes.
Toutes les actions possibles sont identifiées avant le traitement.

Il y a un préordre total sur les actions qui est représentable par une fonction
d'utilité explicite dont on peut donner l'expression mathématique.
Les intrants (paramètres, données) sont numériques, et contiennent toute
l'information utile.
La meilleure décision est celle qui maximise la fonction d'utilité.
2.2.5.1.2 - Hypothèses de la rationalité limitée
Bien souvent ces hypothèses ne sont pas réalistes, en particulier la seconde, surtout quand
l'individu est confronté à des objectifs contradictoires (cadre de la modélisation
multicritère). La vision proposée par Simon, s'inspire du comportement humain. Il faut
raisonner dans le cadre d'un modèle qui prend en compte les éléments suivants :
Les décisions humaines, qu'elles soient indépendantes ou non, sont prises une
par une, dans des domaines limités suivant un processus temporel.
L'appréciation du futur est limitée et, en tout cas, on en n'évalue pas tous les
scénarios.
Il n'existe pas de fonction d'utilité globale et il n'est pas nécessaire d'en
construire, d'autant plus que nos désirs sont souvent contradictoires.
A l'intérieur du processus de décision, la phase d'information est la plus
longue, l'information conditionne, en quelque sorte, très fortement la décision.
2.2.5.1.3 - Conséquences
Si l'on accepte ces hypothèses dites de la rationalité limitée, on en déduit :
un processus progressif de décision est un comportement rationnel (limité).

Le processus accepte une sériation dans le temps des décisions même
dépendantes, ce qui entraîne que l'ordre de présentation des actions possibles
peut influer sur le choix.
les individus n'optimisent pas, car nous sommes bien en peine de savoir quoi
optimiser.

2.2.5.1.4 - Rationalité Limitée et Décision Satisfaisante
la rationalité limitée se résume

à la recherche d'une décision satisfaisante
et à l'affirmation que l'on peut organiser rationnellement le processus temporel
de recherche de cette décision. C'est-à-dire que la rationalité est dans la
procédure.
Ce que cherche le décideur c'est une action « satisfaisante » compte tenu de ses fins.
Cependant, la rationalité limitée ne doit pas être comprise comme le refus de tout apport
normatif.
Le Paradigme de la Prise de décision dirait que :
la prise de décision est un processus temporel, faisant appel de façon non

séquentielle et parfois récursive aux fonctions information, conception, choix,
feed-back .
A cause de nos limites cognitives, ce processus n'est pas rationnel dans son ensemble
(rationalité limitée), ce qui entraîne qu'il n'est pas déterministe en ce sens qu'à situation
égale, deux individus différents arriveront à deux décisions différentes, mais que la façon de
chercher (problem solving) tend à être rationnelle compte tenu des capacités, des acquis et
des représentations de chaque individu (rationalité procédurale).
Remarque :
En admettant même que l'on puisse donner un sens à l'expression « décision

optimale », le coût de la recherche de l'optimalité risque d'être prohibitif (c'est
par exemple le coût d'étude de toutes les actions possibles). Mettre le coût de
la recherche dans la fonction à optimiser ne résout pas le problème car l'on
entre alors dans un jeu de spécularité infinie. En effet, il faudrait aussi
considérer le coût de la recherche du coût, etc.
Nous positionnons les qualités de la rationalité sur l’échelle des

préoccupations.

Echelle de
Niveaux de Normalisation des Rationalité de la
Préoccupations Décisions décision
Très faiblement
1 Philosophie Normalisée
2 Culture Rationalité
3 Politique Limitée
4 Stratégique Peu Normalisée
5 Tactique Rationalité
6 Logistique Totale
7 Tâche Bien Normalisée
Tableau 6 : niveaux de Préoccupation et rationalité Limitée
2.2.5.1.5 - rationalité limitée et paradigme STI
Le lien avec le paradigme STI consiste à dire que :
Les processus rationnels sont normalisables et programmables

un processeur peut donc remplacer le cerveau et, de fait, les recherches
heuristiques sur ordinateur sont « de la rationalité limitée en action ».
« Les raisonnements sont formalisables en règles de production. »

Une telle règle se met alors sous la forme : SI situation ALORS action.

2.2.5.1.6 - Rationalité limitée dans les programmes
la rationalité est dans le processus de décision; la rationalité limitée en action conduit à

explorer intelligemment un espace de résolution. Il existe un programme permettant cette
démarche heuristique donc cette gestion des points de contrôle.
Les possibilités aux points de contrôle ( passage d’un état à un autre ) sont les suivantes :
à un nœud (état) donné, choisir un opérateur.

à un nœud donné, décider si l'on doit continuer à partir de là ou pas ;
à un nœud donné, déterminer s'il mérite d'être conservé en mémoire pour un
éventuel retour arrière ;
quand on décide d'abandonner un nœud, choisir le nouveau nœud d'où l'on va
continuer le processus.
Ainsi, il existe diverses méthodes qui vont permettre de différencier les heuristiques.
L'évaluation qui consiste à savoir si l'état où l'on se trouve est digne d'intérêt, soit pour
continuer l'exploration à partir de lui, soit pour être mis en réserve afin d'être développé par
la suite, cette évaluation est le point le plus important de toute recherche heuristique.
2.2.6 - LE SIAD5 OU SYSTEME INTERACTIF D’AIDE A LA

DECISION
2.2.6.1.1 - Définition
Un SIAD est un
Système Informatique de traitement de l’information et de résolution de
problème pratiquant la recherche heuristique.
5
SIAD , le terme anglais est Decision Support System ou DSS.
2.2.6.1.2 - Interactif
Interactif avait un sens fort dans les années 70, car ils s’opposaient à « saisie par cartes
perforées », « traitement par lot ». Aujourd’hui, les accès à la machine sont des transactions
interactives Homme Machine. Toutefois, le sens « Interactif » des années 70 n’a pas changé.
Le SIAD était interactif parce qu’il laissait le contrôle à l’Homme pour choisir ou décider
du modèle à appliquer lors de l’étape suivante. Nous verrons dans le paragraphe suivant 3
siad élémentaires qui mettent à la disposition de l’utilisateur des bibliothèques de méthodes
et de modèles et laissent au décideur, le soin de bâtir son cheminement heuristique.
En effet, les objets valués, correspondant à un état, sont définis, un certain nombre de
«computations», effectuées par un processeur d'état, fournissent, suivant un programme
informatique non interactif, des extrants (des données de sortie), ce sont ces dernières
valeurs qui vont être appréciées par l'utilisateur pour décider de la suite de la recherche
heuristique.
Nous pouvons donc affirmer au niveau le plus bas
un SIAD est un programme de recherche heuristique dont

la fonction d'évaluation se présente à chaque étape
sous la forme d'un modèle.
2.2.6.1.3 - SIAD & Aide à la décision
«Aide à la décision » s'oppose à «prise de décision automatique» et par conséquent à

«processus à sens unique».
la notion « d'aide à la décision » s'interprète comme une aide à la recherche des

solutions satisfaisantes en utilisant un système de recherche heuristique.
Un SIAD est un système qui augmente la qualité des processus de décision

plutôt que leur productivité.
il faut, lors de la modélisation, utiliser certains modèles normatifs et élargir les

connaissances et les capacités du décideur ; par exemple, introduire la décision multicritère
alors qu'elle était monocritère, introduire du qualitatif quand le décideur n'utilisait que des
raisonnements numériques, etc.

2.2.7 - LES SIAD ELEMENTAIRES
Nous présentons les siad élémentaires selon les 3 items suivants : la Théorie, La Méthode,
Le Modèle.
2.2.7.1 - LE TABLEUR
2.2.7.1.1 - Théorie
la Théorie de résolution de problème : tout problème se résout à l'aide de comptes.
2.2.7.1.2 - Méthode
La méthode est le moyen mis en œuvre : une matrice informatique.

La méthode consiste à mettre des items dans un tableau matriciel. La méthode du tableur est
fixe.
2.2.7.1.3 - Modèle
On construit le modèle en choisissant des objets (concepts) et les relations (équations) entre
les objets.
2.2.7.1.4 - Processeur d’états
Cette grille de calcul (processeur d'état) met à jour le tableau après chaque modification.
2.2.7.1.5 - S.T.I.
Le modèle étant fixé, on entre dans un système de résolution de problème où chaque état est
une grille et les opérateurs sont ceux qui servent à modifier les valeurs de la grille.
2.2.7.1.6 - Organisation de l’ensemble des modèles
Il n'y a pas d'exploration de style système de production sur l'ensemble des modèles, le
changement à ce niveau est « irrévocable ».
C’est l’utilisateur qui gère sa base de modèles; celle-ci n’est pas explicite; sa construction en
est laissée à l’utilisateur.
Les modèles sont contenus en puissance dans les fonctions du du tableur mises à la
disposition de l’utilisateur.
Ou plutôt, je dois organiser le changement.

2.2.7.1.7 - La recherche Heuristique sur les modèles
La recherche heuristique n’est pas aidée par la machine; c’est à l’utilisateur de gérer cette
démarche en construisant les modèles qui lui semblent opportuns de créer pour réduir la
différence. Au niveau supérieur, le modèle peut varier, changement de variables
explicatives, des équations, etc.
2.2.7.1.8 - La recherche Heuristique sur les valeurs
C’est par une réduction de différence par rapport au résultat que va s’organiser la recherche
heuristique des bonnes valeurs.
Exemple : les items des soldes intermédiaires de gestion seraient placés dans les lignes de la
matrice et aux colonnes correspondraient des périodes de temps (années, mois ou jours).
le problème est : Augmentation de la capacité d'autofinancement de l’entreprise.
la décision doit permettre d’apporter une solution ou au moins une amélioration.
2.2.7.1.9 - Organisation de l’ensemble des modèles
Une extraction de base de données correspond à un sous-modèle; déplacement dans les

sous-modèles.
2.2.7.2 - SYSTEME DE GESTION DE BASES DE DONNEES

2.2.7.2.1 - La Théorie « Base de données »
La théorie consiste à dire que tout problème se résout par l'accès aux bonnes données qui
doivent ou devraient être quelque part.
2.2.7.2.2 - La méthode
La méthode est caractérisée par le moyen mis en oeuvre ; exemple :
des fiches papier(de police),

des fichiers,
des bases de données hiérarchiques
des bases de données relationnelles
2.2.7.2.3 - Le Modèle
Le modèle est l’ensemble des entités, des attributs et les relations définis par l’utilisateur.
2.2.7.2.4 - L’état
Soit une requête pour connaître les clients qui paient à plus de 30 jours.
L’état est la relation engendrée par la requête
2.2.7.2.5 - le processeur d'état
Le processeur d’état est le processeur de requête qui fait les jointures, les projections et les
sélections nécessaires pour évaluer l'état engendré (relation) par ma demande.
2.2.7.2.6 - Démarche Heuristique sur les Modèles
le SGBD permet d'introduire de nouveaux attributs et de nouvelles relations.

c'est-à-dire de changer les modèles.
Par contre, on évolue de modèles en modèles plus « large » ou plus complet.
Le choix du modèle M+1, en général, est tel que le modèle M est contenu dans le modèle
M+1. ( dans le cas contraire, il y a risque de pertes de données )
Par contre, on peut être amené à travailler sur des sous-modèles.
Toutefois, tout est possible.
Remarque : A ce « métaniveau » l'évaluation porte en partie sur la valeur des

concepts.
Un SGBD est donc un SIAD à deux niveaux tout comme le tableur.
Il n’existe pas d’aide dans le choix du modèle suivant.
Cela implique : Le décideur doit connaître sa bibliothèque de modèles pour

une meilleure démarche heuristique.
2.2.7.3 - GENERATEUR DE SYSTEMES EXPERTS
Nous insérons entre Théorie et Méthode quelques concepts sur les systèmes experts.
2.2.7.3.1 - La Théorie
La théorie : tout problème peut être résolu à la suite de raisonnements qui sont
décomposables en règles logiques.
Des règles logiques, soit au sens de :
la logique des propositions ( mode 0+ ).
de l’emploi de variables dans la logique des prédicats ( mode 1 )..
2.2.7.3.2 - Remarque
Selon la rationalité présente dans les processus de décision (Cf. le paragraphe sur la
rationalité limitée) , les raisonnements sont formalisables sous forme de règles de
production du type : SI situation ALORS action
Type déductif : si a vraie alors b vraie; cette règle est une inférence, la partie
gauche, la prémisse, la partie droite , la conclusion.
2.2.7.3.3 - Exemple d’une base de faits
niveau des investissements = important

environnement social = bon
cadre juridique = stable
protection environnement = croissante
environnement = acceptable
réseau commercial = adapté
sous-traitance = instable
faisabilité technique = moyenne
risque faisabilité = moyen
2.2.7.3.4 - Présentation succincte des systèmes experts
Un système expert comprend une base de faits, un ensemble de règles et une structure de
contrôle.
En général, la base de faits est divisée en 2 parties : la base de faits elle-même et la base des
faits que l’on voudrait prouver ou « buts ».
Le fonctionnement du Système Expert correspond à la figure ci-dessous.

Choix d'une Règle applicable Contrôle

Ensemble
de Règles
Base de faits Exécution de la Règle
Modification de la base de faits
Non La Condition d'arrêt est suffisante
Oui
FIN
Figure 11 : fonctionnement d’un système expert
2.2.7.3.5 - Représentation des connaissances
On distingue :
Les connaissances assertionnelles, connaissances de la base de faits ou

connaissances déclaratives ou faits bruts.
Les connaissances contenues dans les règles sont des connaissances
opératoires.
L’ensemble des règles et des faits constituent une base de connaissances.
Les connaissances du système de contrôle sont des connaissances de stratégies
de contrôle. Elles disent dans quel ordre appliquer les règles pour résoudre le
problème.
2.2.7.3.6 - Représentation des faits
Une représentation des faits est souvent du type <ATTRIBUT><OBJET><VALEUR>

Exemple < Rendement-81><Action Michelin><7%>
Elle peut se faire selon différentes méthodes dont l’emploi des prédicats ou
l’utilisation des « Frame » ou forme-objet où une unité d’information regroupe
un certain nombre de rubriques.
Nom PETROLE Nom CHIMIE

EST UNE BRANCHE EST UNE BRANCHE
Croissance 84 5% Croissance 84 8%
Niveau Risque FORT Niveau Risque MOYEN
Nom TOTAL Nom ELF

EST UNE firme EST UNE firme
PETROLE ET
FAIT PARTIE DEPETROLE FAIT PARTIE DECHIMIE
Cours + haut Cours + haut
Cours + bas Cours + bas
Rendement 84 Rendement 84
Dividende Dividende
Croissance CA Croissance CA
Nom Capital Social Nom Capital Social

EST UNE firme TOTAL EST UNE firme ELF
Montant Montant
Nombre Actionnaires Nombre Actionnaires
Act Principaux 1 Act Principaux 1
2 2
Nom Production
EST UNE firme ELF
Nb Unités France
Nb Unités USA
Figure 12 : différentes formes-objets reliées entre elles dans un réseau sémantique
2.2.7.3.7 - Inférence incertaine
Cette notion permet d’attribuer un niveau de confiance à une règle. soit un nombre compris
entre 0 et 1.
2.2.7.3.8 - Choix d’une règle applicable
Les propositions d’une base de faits sont vraies.

(AΛB )⇒C
Le système examine si A et B sont contenues dans le fichier « base de faits »
si oui, alors ( A Λ B ) ⇒ C devient une règle applicable
si le système décide de l’appliquer alors C est détachée et ajoutée à la base de faits.

2.2.7.3.9 - Le moteur d’inférence
Le moteur d’inférence est le module qui gère les opérations filtrage, sélection, exécution,
test d’arrêt. Ces opérations forment le cycle du moteur d’inférence.
La Restriction => limitation du nombre de règles à filtrer
Le Filtrage => élection d’un groupe de règles à l’exécution.
La Sélection => ordonnancement séquentiel des règles à présenter à l’exécution.
L’Exécution de la règle => génération d’un fait nouveau ( en général )
Test d’arrêt.
2.2.7.3.10 - Types de Fonctionnement : Chaînage avant, arrière, mixte.
Un Système gouverné par les faits fonctionne en « chaînage avant ».

SI a ALORS b ; soit a vraie, et b un fait que nous considérons comme un fait vrai que
nous voudrions prouver
Un Système gouverné par les buts fonctionne en « chaînage arrière ».

SI a Λ b Λ c ALORS d ; pour démontrer d vraie, il faut démontrer que a vraie, b vraie,
c vraie. Ainsi le processus commence, démontrons que a vraie , si a est elle même le résultat
d’une condition , le système devra remonter aux prémisses de la condition et ainsi de suite.
Puis faire le même processus sur b et sur c.
Le Système est à chaînage mixte s’il est gouverné à la fois par les faits et par les buts.
2.2.7.3.11 - Logique des Prédicats
Soit la règle suivante : SI INDICE-BRANCHE (y, HAUSSE) et si APPARTIENT (x,y)

ALORS ACHETER (x)
exemple si y = Pétrole et si indice-branche est en hausse et si x=TOTAL alors on peut
acheter des actions Total
Cette formulation des règles permet une application indépendante des faits.
2.2.7.3.12 - La Théorie
Nous reprenons la présentation canonique des siad élémentaires « Théorie, Méthode,

Modèle »
La théorie : tout problème peut être résolu à la suite de raisonnements qui sont
décomposables en règles logiques.
Des règles logiques, soit au sens de :

la logique des propositions ( mode 0+ ).
de l’emploi de variables dans la logique des prédicats ( mode 1 ).
2.2.7.3.13 - La Méthode
La méthode est l'emploi de règles conjointement avec une structuration des connaissances
ad hoc :
réseaux sémantiques,
certains réseaux de formes-objets.
2.2.7.3.14 - Le Modèle
Ici, le modèle n'est pas fixé, il correspond à la base de règles qui sera réalisée.
Exemple :
je souhaite acheter une PME. Pour cela je vais faire un modèle d'évaluation des PME. Je
ferai intervenir des concepts quantitatifs (comme le chiffre d'affaires, le résultat brut
d'exploitation, etc.), et qualitatifs (comme la qualité des dirigeants et du personnel). Ce
modèle ou base de règles me permet de faire de multiples évaluations de PME.
2.2.7.3.15 - Etat
Chaque état est un état de la PME (paramètres qualitatifs et quantitatifs, c'est-à-dire base de
faits).
2.2.7.3.16 - Opérateur
Des opérateurs permettent de changer ces paramètres.
2.2.7.3.17 - Processeur d’état
L'évaluation d'un état (processeur d'état) porte sur le résultat de l'expertise et l'obtention
d'une évaluation de la PME qui semble réaliste.
2.2.7.3.18 - Recherche Heuristique sur les modèles
Il existe un deuxième niveau de recherche heuristique, c'est celui qui permet de faire varier
les modèles de l'entreprise. Chaque état est un modèle de l'entreprise (sous forme de règles,
d'objets et de relations entre les objets, un graphe de schémas par exemple).
Les opérateurs sont des opérateurs de modification des objets et des relations entre objets
(schémas).

2.2.7.3.19 - Remarques
Chaque état, sous forme de base de règles est stockable en mémoire et

fonctionne avec tout état du niveau inférieur ou base de faits.
L'évaluation à ce niveau porte sur la qualité de la base de règles, sa richesse, sa
cohérence et sa complétude.
En Résumé :
les 3 Théories de résolution de problème réunies disent ceci :
Pour résoudre un problème, il faut d’abord accéder aux bonnes données ( le

SGBD remplit l’opération de filtre ( recherche heuristique sur les modèles),
puis positionner les items dans une matrice et leurs valeurs dans les cellules de
la matrice ( le tableur remplit ce rôle de matrice ) enfin rechercher, par une
démarche heuristique, la succession de modèles qui vous amènera à la solution
du problème par réduction progressive de la différence.
Ces résolutions génèrent de la connaissance qui peuvent alimenter une base de

connaissance ( base de faits et base de connaissances procédurales (règles ))
d’un système expert sur laquelle le moteur d’inférence génèrera de nouvelles
connaissances ou confirmera des faits ou des hypothèses.
Remarque
la base du SGBD est un ensemble de tables contenant les bonnes données.

Tableur et Base du SGBD ont donc la même structure cellulaire. Sur le SGBD,
la méthode consiste à permettre d’établir des liens entre les cellules. Sur le
tableur, la méthode permet l’établissement des expressions de fonction entre
les cellules. Ainsi, un transfert d’une base de données vers un tableur est une
opération miroir ou neutre.

2.2.8 - LE SYSTEME DECISIONNEL
Nous reprenons le modèle du système décisionnel de l’organisation que nous avons

construit précédemment et nous développons l’élément « Machine » pour le décomposer en
siad élémentaires.
Remarque : Nous cherchons à illustrer au travers d’une représentation simple les quelques
relations entre les éléments exposés dans ce sujet en sachant que la représentation comporte
ses propres limites.
Niveau des Projet
Représentations
Environnement Espace de Résolution
Mentales de l'Organisation de Problèmes
Niveaux de
Préoccupations
Intellectuelles /
3 Politique
4 Stratégique
7 Tâche
Figure 13 : le système décisionnel
Ainsi, la structure de la machine intègre les 3 siad élémentaires et la partie du schéma

« Représentation mentale » intègre de l’ensemble des Théories, Méthodes et Modèles, celles
et ceux qui sont reconnus par la machine.

Ensemble des Théories, Méthodes, Modèles des Représentations

Mentales
Ensemble des Méthodes et Modèles reconnus par la machine
Machine Décideur
Sstèmes Experts : Base

de Connaissances
TABLEUR ( Dialogue )
SGBD
Mémoires / Processeurs
Figure 14 : structure de la machine
Cette partie a permis de définir des concepts utiles à cerner le Système décisionnel de
l’organisation .
Le Système Homme-machine
Les caractéristiques de la décision.
En résumé, nous rappelons les échelles liées à l’échelle des préoccupations du dirigeant ou
du décideur.

Niveaux de Echelle de Période de Impact Domaines

Préoccupations Normalisation des Référence temporel Impactés
Décisions

Normalisée
2 Culture Année(s) Long terme Organisati
on
3 Politique
4 Stratégique Peu Normalisée Année(s) Moyen -

Long terme
5 Tactique Mois Moyen Terme Fonction /
Service
6 Logistique Semaine
7 Tâche Bien Normalisée Jour, Heure Ponctuel Poste de

Travail
Figure 15 : échelles liées à l'échelle des niveaux de préoccupations (1)
Niveaux de Echelle de Echelle de Niveaux

Préoccupations Normalisation des d'Agrégation / ou de
Décisions Synthèse

Normalisée
2 Culture
3 Politique
4 Stratégique Peu Normalisée Maximum
5 Tactique
6 Logistique Maximum pour

une fonction /
7 Tâche Bien Normalisée service
atomique
Figure 16 : échelles liées à l'échelle des niveaux de préoccupations (2)
A partir de la structure du système décisionnel , nous positionnerons les outils d’aide à la

décision dans la conclusion finale de la « Problématique Entreprise ».

2.3 - LE CONTENU INFORMATIF DU SYSTEME DECISIONNEL
Après la problématique de la structure du système décisionnel de l’organisiation, nous

présentons le contenu informatif de ce système décisionnel.
2.3.1 - CONTENU INFORMATIF ELEMENTAIRE
L’atome informatif du contenu informatif est l’échange économique ( échange d’un produit
ou service et d’un flux financier ) entre deux Tiers. Nous désignons cet échange sous le
terme « Acte économique »; nous en faisons l’extension à toute prestation faite par une
administration publique ou privée auprès de ses administrés, sachant que le flux financier
peut-être éventuellement nul. Nous étendons cette définition également aux relations
Clients-Fournisseurs entre 2 services d’une organisation. Le contenu informatif commence
par le traçage des évènements de base que sont ces actes économiques.
Leur compréhension et les explications à postériori trouveront des éléments de réponse dans
le contexte de ces évènements basiques. Ce contexte est en tout premier lieu constitué par le
contrat qui lie les tiers concernés, puis plus largement viendront les éléments extérieurs,
marché, concurrence, etc..
2.3.1.1 - ACTE ECONOMIQUE

2.3.1.1.1 - Structure de l’acte économique
L’acte économique se réalise dans une relation contractuelle exprimée ou non exprimée
éventuellement , s’il s’agit d’une administration.
Exemple de Sociétés : Un Groupe de lingerie passe un contrat de référencement de 4
marques de lingerie féminine avec un groupe Distributeur. Le contrat prévoit la prise de
commande par les services achats du distributeur, les livraisons aux centres logistiques,
l’envoi de la facturation au siège, etc... période : du 1er Janvier 99 au 31 décembre 99, Tarif
: tel niveau de prix, remises, avec p campagnes promotionnelles, avec x manifestations
ponctuelles et les utilisant l’EDI pour la prise de commande, l’avis de livraison, la remontée
des ventes vers le fournisseur, via le réseau ALLEGRO.

Exemple d’Administration :
Le service d’état civil de la mairie est ouvert du Lundi au Vendredi de 9h à 12h, de 14h à
17h et le Samedi de 9h à 11h.
Les « actes économiques » de ce service sont les délivrances de fiches d’état civil, de
« certifications conformes » de photocopie, d’extrait de naissance, etc...
La structure de l’acte :
2 Tiers ( Contrat d’échange ( n actes économiques)).
Acte économique ( tiers1, tiers2, produit, prix d’échange, date, No de contrat )
2.3.1.1.2 - le Contrat
Le contrat pourrait être défini de la façon suivante : Contrat ( No , tiers 1, tiers 2 ( Type
d’actes économiques ou prestations, Liste des clauses ) )
Exemple : Clauses Juridiques, d’assurance, de livraison, de facturation, de réglement, de

garantie, de service après-vente, de maintenance, de fin de vie du produit, etc... )
Si n tiers interviennent dans un contrat, on peut toujours décomposer en m contrats de tiers
pris 2 à 2.
2.3.1.1.3 - L’environnement
L’environnement de l’acte économique est constitué d’abord du contrat et ensuite de l’état

de la conjonction économique, du marché, et de nombreux facteurs d’environnement que
nous reprendrons d’après le schéma des forces de Porter.
Cet environnement est constitué de tous les événements perçus et repérés par l’organisation
et qui ont eu un impact sur elle.
2.3.1.1.4 - base de faits
La Base des actes économiques est la base des faits.

2.3.1.1.5 - Base de Compréhension
la base des événements relatifs à la compréhension sont : les contrats, les événements non
répétitifs à fort impact, l’évolution extérieure.
Nous présentons un modèle MCD schématique du contenu informatif du système

décisionnel.
Exemple d'événements :
Une Campagne promotionnelle dans la vallée du Rhône sur les fruits frais
le départ du responsable commercial lors du lancement d’un nouveau produit,
etc...
Environnement
Base de Faits
Tiers Contrat Evènements

Code Code Code
Coordonnées Tiers_1_Code Acte Economique Intitulé

Tiers_2_Code Code Domaine
Liste des Clauses Contrat_Code Période
Produit_Code Espace
Date
Prix
Figure 17 : modèle des données simplifié du contenu informatif de base du système décisionnel

2.3.1.2 - LES ACTIVITES
Nous avons présenté, en introduction de cette partie, les types d’entreprises ou organisations
concernées par notre sujet. Nous croisons type d’organisations et type d’activités et nous ne
retenons que les intersections renseignées; nous les listons simplement.
2.3.1.2.1 - Les Activités Industrielles
Les Activités Industrielles dans les secteurs primaire, secondaire, tertiaire.
2.3.1.2.2 - Les Activités Administratives
Les Activités Administratives dans les domaines de l’Education, de la santé, de

la sécurité publique, l’armée, la Police, la gestion des collectivités territoriales
etc...
2.3.1.2.3 - Les Activités Associatives
Les Activités Associatives Culturelles, Sportives, de Loisirs, sociales,

caritatives, etc...
2.3.2 - STRATEGIE DES ORGANISATIONS
Pour approcher le contenu informatif des systèmes décisionnels, nous pouvons suivre la
démarche stratégique de l’organisation.
Elles croisent en général différentes approches qui vont se retrouver dans le système
décisionnel de l’entreprise.
2.3.2.1 - LE DIAGNOSTIC EXTERNE
un état des lieux ( l’analyse de l’environnement : Listes des Menaces et des

Opportunités )
Marché : Les segments de clientèle, la couverture, la position sur les matrices
BCG, Mc Kinsey ou autres matrices.
Relations financières Actionnaires, Banques, marché Boursier
Evolution Technologique
Environnement législatif et réglementaire
Les Tendances économiques
Les Evolutions sociales et des comportements.
Les Brevets et les marques déposées.
Etc..

Nous développons un aspect de l’environnement extérieur.

2.3.2.2 - ANALYSE DE L’ENVIRONNEMENT
En reprenant le diagramme des Forces de Porter, immergé dans un environnement dont on

notera les composantes significatives (Cf. le schéma : les composantes environnementales
sont données à titre d’exemple, la liste n’est pas exhaustive.
Ce schéma peut aussi être pris en considération par une organisation qui se trouve dans la
périphérie environnementale.
Exemple Un Organisme de santé sera sensible à l’aspect démographique, épidémiologique

d’une région, des risques épidémiologiques des régions voisines, etc....
France - Europe - Monde

Environnement Environnement
Institutionnel Environnement Economique Divers
Politique Nouveaux Démographique

Entrants

Législatif
Concurrents
Culturel
Sté / I.F. / Agents

Fournisseurs Clients

S.Ass.
d'Influence

Administratif Produits de Social

Substitution
Ecologique
Environnement Technologique
Figure 18 : l'entreprise, les 5 Forces de Porter, l’environnement

2.3.2.3 - LE DIAGNOSTIC INTERNE
Analyse des ressources internes de l’entreprise
Définition ou redéfinition des ses facteurs clés de succès, compétences

distinctes ou atouts concurrentiels. La Responsabilité sociale de l’entreprise.
Le système de valeurs de ses dirigeants
Nous listons en prenant la grille des 5 M.
Marketing ( positionnement des 4 P )

Money ( Fonds de Roulement, BFR, Trésorerie , ... )
Machine ( savoir-faire, .. )
Men 5 Ressources Humaines, Composition, Nombre, Climat social, capacité
d’adaptabilité,...)
Management fonctionnement de l’entreprise, structure du Management.
2.3.2.4 - APPROCHE CREATION DE VALEUR
Nous présentons le schéma d’une autre approche « Création de Valeur » pour montrer la
prise en compte des éléments intérieurs ( recherche et développement, Unités de
Productions, Savoir-Faire Managériaux, etc.... ).
Création de
Valeur
Accroissement Baisse des coûts

de la relatifs
Différenciation
Savoir faire Savoir faire Productivité Coût des

Markéting Technologique Facteurs
Savoir-faire
managériaux
Figure 19 : différenciation par la technologie et la baisse des coûts

Enfin, une approche ajoutant la prise en compte de la satisfaction client.
Forces
Concurrentielles
Profit du
Satisfaction de
Producteur-
l'utilisateur
Vendeur
Prix
Différenciation -
Coût
Qualité de l'offre
Figure 20 : approche centrée sur le prix
2.3.2.5 - CONCLUSION
Le système décisionnel intègre l’ensemble du système d’information de l’organisation.
2.3.2.6 - L’ENSEMBLE DES DECISIONS STRATEGIQUES
Pour terminer l’aspect stratégique, nous montrons la correspondance avec la définition d’un
espace de résolution de problème.

L’ensemble des décisions stratégiques prises ou à prendre représentent l’espace d’états d’un
espace de résolution de problème.
Etat
Ef Objectif
E4 E4
E3 E3
E2 E2
E1 E1
Etat Initial
Ei
Ensemble de Décisions de niveau stratégique.
Aujourd'h + 1 an + 2 ans + 3 ans

ui
Graphique 1 : graphe des décisions de niveau de préoccupation stratégique
Amener l’organisation du point A initial au point B état final est une gestion de projet qui
peut se mener comme une « gestion de projet canonique ». La relecture, à posteriori du
chemin parcouru par rapport aux objectifs, se comprendra d’autant mieux que les
événements importants auront été tracés.
2.3.3 - LE CONTENU INFORMATIF DE LA PARTIE HAUTE DES

PREOCCUPATIONS
La manière de nourrir la partie haute des niveaux de préoccupations influera sur les
décisions des niveaux plus bas. Cette partie haute peut s’intéresser aux évolutions sur des
périodes plus longues; réintégrer le passé de l’entreprise pour mieux se projeter dans
l’avenir.
Nous donnons quelques caractéristiques du changement de paradigme en citant Hervé

Sérieyx et Martin Forest du Groupe Innovation.
2.3.3.1 - PASSAGE DU COMPLIQUE AU COMPLEXE
Le management des entreprises s’inscrit dans un environnement complexe. Il faut passer de

la « gestion du compliqué » à la « gestion de l ’incertain, de l’aléatoire, de l’imprévisible ».
La gestion du compliqué est la gestion de tout ce qui est réductible à l’analyse;
La gestion du complexe est le domaine dans lequel il nous faut avancer dans un état
d’esprit de rationalité limitée et d’organisation apprenante en permanence.
2.3.3.2 - LA MONDIALISATION
La mondialisation ou L’espace de libre échange au sens anglo-saxon du terme.
2.3.3.3 - LE CLIENT
Un client de plus en plus difficile à satisfaire, versatile, et qui n’est pas nécessairement
argenté entraînant une organisation orientée vers le client et inversant de haut vers le bas, la
traditionnelle pyramide hiérarchique. Modification d’organisation Pyramide vers la
Pyramide et le Réseau. Développement du management par projet.
2.3.3.4 - DES CONTINGENCES EVOLUTIVES
Un contexte général évoluant rapidement et entraînant une nécessité de s’ajuster au plus

vite; réduction des portées dans le temps des plans stratégiques.
2.3.3.5 - UN NIVEAU SCOLAIRE OCCIDENTAL ELEVE
Le Niveau scolaire occidental très élevé implique un système d’intelligences

interconnectées.
2.3.3.6 - LE DEVELOPPEMENT DES ALLIANCES, DES RESEAUX

D’ENTREPRISES
Le développement des maillages d’alliances de P.M.E., de Grandes Entreprises qui se

signifient entre autre au travers du Co-branding, (image de marque commune ) nécessite de
se centrer sur ses facteurs critiques de succès.

2.3.3.7 - LA 4EME REVOLUTION DU SAVOIR
Après l’avènement de l’écriture ( - 5000 ans : Mémoire du Savoir), l’avènement de

l’imprimerie ( - 500 ans : Diffusion du savoir ), l’avènement de l’ordinateur ( - 50 ans :
Extension du Cerveau ), voici l’avènement du WEB ( - 5 ans ou l’interconnexion des
cerveaux entre eux ).
2.3.4 - CONCLUSION
« Montrez-moi votre système d’information, et je vous dirai qui vous êtes » . En effet, si la
structure du contenu peut s’exprimer relativement simplement dans les niveaux
opérationnels de l’organisation ( structure des actes économiques ); toute la variété des
organisations et de leurs activités proviendra de cette partie environnementale ( Contrat,
historique des événements marquants ) et des richesses intellectuelles et humaines des
dirigeants.
2.4 - CONCLUSION DE LA PROBLEMATIQUE
2.4.1 - SYSTEME DECISIONNEL
La Problématique de l’entreprise relative au data warehouse et au data mining a été abordée

en définissant :
la structure du système décisionnel
le paradigme de la décision et de la prise de décision
le contenu informatif du système décisionnel
C’est dans cet environnement que nous terminons en positionnant chacun des outils d’aide à
la décision.
2.4.2 - POSTIONNEMENT DES OUTILS D’AIDE A LA DECISION
Nous proposons de situer les outils et les techniques d’aide à la décision que sont
le data warehouse,
l’analyse multidimensionnelle,
le Data Mining,
le Système Expert,
le tableau de Bord
et l’E.I.S.

Nous rappelons la figure : structure de la Machine.

Ensemble des Théories, Méthodes, Modèles des Représentations
Mentales
Ensemble des Méthodes et Modèles reconnus par la machine
Machine Décideur
Sstèmes Experts : Base

de Connaissances
SGBD
Figure 21 : structure de la machine
2.4.2.1 - POSITIONNEMENT DU DATA WAREHOUSE
Le Data Warehouse, "l’Entrepôt de données" remplit la fonction du SGBD. De même, les

bases de données de production font ce premier travail de sélectionner les « bons
événements », les « bonnes données » utiles au fonctionnement de l’organisation.
Le chapitre suivant présentera la distinction entre data Warehouse et Bases de production.

A l’échelle de notre représentation ci-dessus, les bases de productions et le Data Warehouse
jouent ce rôle de filtre; le Data Warehouse affine le filtrage.

Ensemble des Méthodes et Modèles de SGBD
Machine Décideur
Data Warehouse
( Dialogue )
SGBD : Data Warehouse
Figure 22 : positionnement du Data Warehouse.
La taille du Data warehouse est globalement fonction de la taille des organisations.

Sur l’échelle des tailles des organisations, les américains ont se sont servis de
rapprochement avec les activités logistiques pour baptiser les collections de données
décisionnelles ; ainsi l’entrepôt pour les grands volumes d’informations stockées, le
« Magasin » pour des volumes plus faibles à la taille de magasin ou de services d’entreprise.
Enfin pour les plus petites unités, le vocabulaire n’a pas été fixé, nous pourrions peut-être
choisir la « Palette de données » au sens de Palette de conditionnement en logistique.
Faut-il affecter des volumes de données à chacune des tailles d’entrepôt de données ?
Ce que l’on peut dire :
l’unité de stockage est le Giga Octets.

Cette unité est relative au stockage de données alaphanumériques. ( nous excluons
l’image, le son ,.. )
Plutôt que de fixer des limites, nous donnons des ordres de grandeur au travers de 3
exemples :
Mag Info gère la carte Cofinoga et dispose de 30 Téra-Octets en ligne soit
3.10^5 Go
Une PME de fabrication de lingerie féminine destinée aux grandes surfaces :
CA 300 MF et dispose de 4 Go.
Une base de documentation relative à ces contrats d’un consultant est de
l’ordre de quelques Mo soit 0,01 Go environ.

Volume en 0,001 à 1 0,5 à 10^2 10^1 à 10^6

Go
Data Mart Data
Warehouse
SGBD "Palette de Dépôt Entrepôt
données"
Taille des
Organisations
Uni - PM(E,I) Gdes
Personnelle Organisations Organisations
Tableau 7 : Positionnement du Data Warehouse
2.4.2.2 - AUTRES OUTILS DECISIONNELS
Tous les autres outils d’aide à la décision exploitent des données du SGBD. Si
l’organisation n’a pas de data warehouse, alors l’outil d’aide à la décision qu’elle utilise ,
intègre une fonction SGBD avec les qualités du data warehouse qui seront exposées dans le
chapitre suivant.
2.4.2.3 - TABLEUR ET MODELES
Comme nous l’avions dit, la base du SGBD est constituée de tables de « bonnes données ».
Aussi, dans un transfert du SGBD vers le Tableur, c’est d’abord une opération miroir qui se
passe : il y a transfert d’une population d’individus.
Ainsi un premier ensemble de modèles qui pourront s’appliquer sur le tableur sont les
modèles d’analyse de population ( classification, évaluation, ..... ).
Le second ensemble de modèles sont les modèles à base de fonctions mathématiques (

financières, recherche opérationnelle, etc... ).

2.4.2.4 - POSITIONNEMENT DE L’ANALYSE

MULTIDIMENSIONNELLE
L’Analyse multidimensionnelle est un hyper tableur capable de projeter sur le plan de

l’écran ou de la feuille de papier un plan intéressant choisi par l’utilisateur parmi les plans
de l’hypercube.
Ce tableur permet de nombreux niveaux d’agrégation par dimension. Cet outil permet de
quantifier.
Un chapitre est consacré à l’analyse multidimensionnelle et aux règles OLAP. Ces règles
OLAP caractérisent le système décisionnel multidimensionnel et énoncent des
recommandations sur le modèle de SGBD. C’est pourquoi nous avons fait référence dans la
figure ci-dessous au SGBD.

Ensemble des Méthodes et Modèles de TABLEURS
Fonctions
Mathématiques, Analyse de Population
Financières, etc..
Machine Décideur
Analyse Multidimensionnelle
Figure 23 : positionnement de l’Analyse Multidimensionnelle

2.4.2.5 - POSITIONNEMENT DU DATA MINING
Comme les outils précédant, le data mining, « Mine de Données à exploiter » va travailler à
partir de données extraites du Data Warehouse et les ranger dans un tableur.
Le Data Mining travaillera de préférence sur des tableurs de « Populations » et permettra

d’appliquer un ensemble de méthodes pour répondre aux tâches de Classification,
Estimation, Prédiction, etc; tâches et fonctionnalités qui seront développées au chapitre Data
Mining.
Cet outil permet de rechercher les causes des résultats donnés par l ’analyse
multidimensionnelle, de vérifier des hypothèses, et de découvrir des corrélations entre les
données.
Le positionnement de cet outil d’aide à la décision se fait en 2 temps :
1. par rapport au tableur : il permet l’emploi de toutes les méthodes et modèles réservées
aux analyses de population et l’emploi de tous les autres modèles mathématiques.
2. par rapport au Système Expert : Il peut alimenter un système expert des connaissances
émergentes.
Selon les éditeurs de logiciels, cet outil peut avoir un comportement superposable au
fonctionnement d’un système Expert. Il permet de pratiquer le chaînage avant, arrière, de
tracer l’arbre des décisions, etc....


Ensemble des Méthodes et Modèles de TABLEURS
Fonctions
Mathématiques, Analyse de Population
Financières,
Ensemble desetc..
Méthodes et Modèles de Systèmes
Experts
Machine Décideur
Analyse
Système Expert DATA MINING
Multidimensio
nnelle
Figure 24 : positionnement du Data Mining
2.4.2.6 - POSITIONNEMENT DU SYSTEME EXPERT
Le Système Expert travaille sur une base de connaissance. A ce titre, il peut se trouver
enrichi des résultats de l’analyse multidimensionnelle, du Data Mining et des tableaux de
Bord.
2.4.2.7 - POSITIONNEMENT DU TABLEAU DE BORD
Comme son nom l’indique, c’est un tableur. A ce titre, il peut se trouver en sortie du SGBD
( data warehouse ) ou en sortie d’une autre outil d’aide à la décision. Sa finalité
organisationnelle est de suivre un « Indicateur ».
2.4.2.8 - POSITIONNEMENT DES E.I.S (EXECUTIVE

INFORMATION SYSTEM)

Destinés au comité de Direction, ces EIS ou tableaux de Bord ont intégré au cours de leur
évolution des accès à de nombreuses bases pour permettre des indicateurs de synthèse,
l’analyse multidimensionnelle et bien sûr la fonction de tableaux de Bord.

2.4.3 - CONCLUSION
pour conclure cette problématique, nous terminons par quelques questions d’un dirigeant :
Suis-je dans le vrai ?

Mes choix sont-ils bons ?
Comment prendre du recul par rapport à un quotidien qui m’absorbe totalement ?
Que deviendra mon entreprise dans les 2 ans qui viennent ?
Au delà d’une bonne expérience des modèles, des analyses et des arsenaux d’informatique
décisionnelle, il y a toujours une prise de risque; en général, il faut prendre un risque par
Jour !!!
Nous avons positionné Data Warehouse et Data Mining dans le système décisionnel de
l’organisation, les chapitres suivants vont présenter plus en détail leurs caractéristiques,
leurs apports respectifs dans l’aide à la décision, et leur mise en œuvre.

3 - LE DATA WAREHOUSE
3.1 - PRESENTATION
Le concept de Data Warehouse a été formalisé pour la première fois en 1990.
L’idée de constituer une base de données orientée sujet, intégrée, contenant des
informations datées, non volatiles et exclusivement destinées aux processus d’aide à la
décision fut dans un premier temps accueillie avec une certaine perplexité. Beaucoup n’y
voyaient que l'habillage d’un concept déjà ancien : l’infocentre.
Mais l’économie actuelle en a décidé autrement. Les entreprises sont confrontées à une
concurrence de plus en plus forte, des clients de plus en plus exigeants, dans un contexte
organisationnel de plus en plus complexe et mouvant.
Pour faire face aux nouveaux enjeux économiques, l’entreprise doit anticiper. L’anticipation
ne peut être efficace qu’en s’appuyant sur de l’information pertinente. Cette information est
à la portée de toute entreprise qui dispose d’un capital de données gérées par ses systèmes
opérationnels et qui peut en acquérir d’autres auprès de fournisseurs externes.
Mais actuellement, les données sont surabondantes, non organisées dans une perspective
décisionnelle et éparpillées dans de multiples systèmes hétérogènes.
Pourtant, les données représentent une mine d’informations. Il devient fondamental de

rassembler et d’homogénéiser les données afin de permettre d’analyser les indicateurs
pertinents pour faciliter les prises de décisions.
Pour répondre à ces besoins, le nouveau rôle de l’informatique est de définir et d’intégrer
une architecture qui serve de fondation aux applications décisionnelles : le Data Warehouse.
Le nouveau rôle de l’informatique est de définir et d’intégrer une

architecture qui serve de fondation aux applications décisionnelles : le Data
Warehouse.

3.2 - POURQUOI UN DATA WAREHOUSE
3.2.1 - LA PROBLEMATIQUE DES ENTREPRISES
L’entreprise construit un système décisionnel pour améliorer sa performance. Elle doit

décider et anticiper en fonction de l’information disponible et capitaliser sur ses
expériences.
Depuis plusieurs dizaines d’années, une importante masse d’informations est stockée sous
forme informatique dans les entreprises. Les systèmes d’information sont destinés à garder
la trace d’événements de manière fiable et intègre. Ils automatisent de plus en plus les
processus opérationnels.
Parallèlement, les entreprises réalisent la valeur du capital d’information dont elles

disposent. Au delà de ce que l’informatique leur apporte en terme fonctionnel, elles
prennent conscience de ce qu’elle pourrait apporter en terme de contenu informationnel.
Considérer le système d’information sous cet angle en tant que levier pour accroître leur
compétitivité et leur réactivité n’est pas nouveau. Par contre, étant donné l’environnement
concurrentiel actuel, cela devient une question de survie.
L’informatique a un rôle à jouer, en permettant à l’entreprise de devenir plus entreprenante

et d’avoir une meilleur connaissance de ses clients, de sa compétitivité ou de son
environnement.
Il est intéressant de calculer les retours sur investissement rendus publics. Ils se calculent
rarement en terme de baisse de coûts, mais en terme de gains. Par exemple, ils permettent un
meilleur suivi des ventes, une meilleure compréhension des habitudes d’achats des clients,
d’une adaptation des produits à une clientèle mieux ciblée.
A ce titre, le Data Warehouse doit être rapproché de tous les concepts visant
à établir une synergie entre le système d’information et sa stratégie.

3.2.2 - LA REALITE DES SYSTEMES D’INFORMATIONS
A première vue, les systèmes opérationnels seraient des mines d’or informationnelles. En
fait, il n’en est rien.
Les données contenues dans ces systèmes sont :
Eparpillées : il existe souvent de multiples systèmes, conçus pour être efficace pour
les fonctions sur lesquelles ils sont spécialisés.
Peu structurées pour l’analyse : la plupart des systèmes informatiques actuels ont
pour objet de conserver en mémoire l’information, et sont structurés dans ce but.
Focalisées pour améliorer le quotidien : toutes les améliorations technologiques

se sont focalisées pour améliorer cette capacité en terme de volume, qualité, rapidité
d’accès. Il manque très souvent la capacité à nous donner les moyens de tirer parti
de cette mémoire pour prendre des décisions.
Utilisées pour des fonctions critiques : la majorité des systèmes existants est
conçue dans le but unique de nous servir avec des temps de réponse corrects.
Le Tableau 8 présente les différences entre les données opérationnelles et décisionnelles.
Données opérationnelles Données décisionnelles

Orientées application, détaillées, précises Orientée activité (thème, sujet),
au moment de l’accès condensées, représentes des données
historiques
Mise à jour interactive possible de la part Pas de mise à jour interactive de la part
des utilisateurs des utilisateurs
Accédées de façon unitaires par une Utilisées par l’ensemble des analystes,
personne à la fois gérées par sous-ensemble
Cohérence atomique Cohérence globale
Haute disponibilité en continu Exigence différente, haute disponibilité
ponctuelle
Uniques (pas de redondance en théorie) Peuvent être redondantes
Structure statique, contenu variable Structure flexible
Petite quantité de données utilisées par Grande quantité de données utilisée par
un traitement les traitements
Réalisation des opérations au jour le jour Cycle de vie différent
Forte probabilité d’accès Faible probabilité d’accès
Utilisées de façon répétitive Utilisée de façon aléatoire
Tableau 8 : différences entre données du système de production et données décisionnelles

S’il existe effectivement des informations importantes, il n’en est pas moins nécessaire de
construire une structure pour les héberger, les organiser et les restituer à des fins d’analyse.
Cette structure est le Data Warehouse ou « entrepôt de données ». Ce n’est pas une usine à
produire l’information , mais plutôt un moyen de la mettre à disposition des utilisateurs de
manière efficace et organisée.
La mise en œuvre du Data Warehouse est un processus complexe. L’objectif à atteindre est
de recomposer les données disponibles pour en donner :
une vision intégrée et transversale aux différentes fonctions de l’entreprise,

une vision métier au travers de différents axes d’analyse,
une vision agrégée ou détaillée suivant le besoin des utilisateurs.
Le Data Warehouse permet la mise en place d’un outil décisionnel s’appuyant sur les
informations pertinentes pour l’entreprise, centrées sur le métier utilisateur.
3.2.3 - LES OBJECTIFS
Toutes les données qu’elles proviennent du système de production de l’entreprise ou

qu’elles soient achetées vont devoir être organisées, coordonnées, intégrées et stockées,
pour donner à l’utilisateur une vue intégrée et orientée métier.
Systèmes externes
Systèmes hétérogènes
de production
IBM
EXTRACTION
PREPARATION
CHARGEMENT
BULL
HP ACCES,
STOCKAGE
VISUALISATION
IDENTIFIER
POINT
FOCAL
Tableau 9 : le data warehouse, point focal de l'informatique décisionnelle

Source : EDS-Prométhéus

Cette figure illustre l’objectif d’un Data Warehouse, sorte de point focal stockant en un
endroit unique toute l’information utile provenant des systèmes de production et des sources
externes.
Avant d’être chargée dans le Data Warehouse, l’information doit être extraite, nettoyée et
préparée. Puis, elle est intégrée et mise en forme de manière compréhensible par être
comprise par l’utilisateur.
3.3 - DEFINITION
De nombreuses définitions ont été proposées, soit académiques, soit par des éditeurs
d’outils, de bases de données ou par des constructeurs, cherchant à orienter ces définitions
dans un sens mettant en valeur leur produit.
La définition la plus appropriée est :
Le Data Warehouse est une collection de données orientées sujet, intégrées, non
volatiles et historisées, organisées pour le support d’un processus d’aide à la
décision.
♦ Orientées sujet
Le Data Warehouse est organisé autour des sujets majeurs de l’entreprise,

contrairement aux données des systèmes de production. Ceux-ci sont généralement
organisés par processus fonctionnels. Les données sont structurées par thème.
L’intérêt de cette organisation est de disposer de l’ensemble des informations utiles
sur un sujet le plus souvent transversal aux structures fonctionnelles et
organisationnelles de l’entreprise.
Cette orientation sujet va également permettre de développer son système

décisionnel via une approche par itérations successives, sujet après sujet.
L’intégration dans une structure unique est indispensable car les informations
communes à plusieurs sujets ne doivent pas être dupliquées. Dans la pratique, une
structure supplémentaire appelée Data Mart (magasin de données) peut être créée
pour supporter l’orientation sujet.

♦ Données intégrées
Un Data Warehouse est un projet d’entreprise. Par exemple dans la distribution, le

même indicateur de chiffre d’affaires intéressera autant les forces de vente que le
département financier ou les acheteurs. Pour y parvenir, les données doivent êtres
intégrées.
Avant d’être intégrées dans le Data Warehouse, les données doivent êtres mises en
forme et unifiées afin d’avoir un état cohérent. Par exemple, la consolidation de
l’ensemble des informations concernant un client donné est nécessaire pour donner
une vue homogène de ce client.
Une donnée doit avoir une description et un codage unique.
Cette phase d’intégration est très complexe et représente 60 à 90 % de la charge
totale d’un projet.
♦ Données historisées
Dans un système de production ; la donnée est mise à jour à chaque nouvelle

transaction. Dans un Data Warehouse, la donnée ne doit jamais être mise à jour. Un
référentiel temps doit être associé à la donnée afin d’être capable d’identifier une
valeur particulière dans le temps.
♦ Données non volatiles
La non volatilité des données est en quelque sorte une conséquence de

l’historisation. Une même requête effectuée à quelques mois d’intervalle en
précisant la date de référence de l’information recherchée donnera le même résultat.
Le Tableau 10 ci-après présente les principales différences entre le système de production et

le data warehouse :
Critère Système de production Data Warehouse

Niveau de détail des Très détaillé Synthétique, parfois détaillé
informations utilisateurs
Utilisateurs Une ou quelques fonctions de Plusieurs fonctions de
l’entreprise l’entreprise
Données figées Non – évolution en temps réel Oui – archivage
Historique Non Oui
Opérations sur les données Ajout/mise à jour/ consultation Consultation uniquement
Tableau 10 : différences entre système de production et data warehouse

3.4 - LES CONCEPTS DE BASE
3.4.1 - LA STRUCTURE
Un Data Warehouse se structure en quatre classes de données, organisées selon un axe

historique et un axe synthétique.
Données fortement agrégées
Niveau de
Données agrégées synthèse
Méta Données
Données détaillées
Niveau
Données détaillées historisées d'historique
Tableau 11 : structure d'un data warehouse

♦ Les données détaillées
Elles reflètent les événements les plus récents. Les intégrations régulières des
données issues des systèmes de production vont habituellement être réalisées à ce
niveau.
Les volumes à traiter sont plus importants que ceux gérés en transactionnel.
Attention : le niveau de détail géré dans le Data Warehouse n’est pas forcément
identique au niveau de détail géré dans les systèmes opérationnels. La donnée
insérée dans le Data Warehouse peut être déjà une agrégation ou une simplification
d’informations tirées du système de production. Exemple : l’étude du panier de la
ménagère nécessite de stocker le niveau de finesse du ticket de caisse.

♦ Les données agrégées
Elles correspondent à des éléments d’analyse représentatifs des besoins utilisateurs.

Elles constituent déjà un résultat d’analyse et une synthèse de l’information
contenue dans le système décisionnel, et doivent être facilement accessibles et
compréhensibles. La facilité d’accès est apportée par des structures
multidimensionnelles qui permettent aux utilisateurs de naviguer dans les données
suivant une logique intuitive, avec des performances optimales. (Certains SGBD du
marché sont conçus pour faciliter la mise en place des agrégations et la navigation
au sein de celles-ci).
La définition complète de l’information doit être mise à la disposition de
l’utilisateur pour une bonne compréhension. Dans le cas d’un agrégat, l’information
est composée du contenu présenté (moyenne des ventes, …) et de l’unité (par mois,
par produit,…).
♦ Les méta-données
Elles regroupent l’ensemble des informations concernant le Data Warehouse et les

processus associés. Elles constituent une véritable aide en ligne permettant de
connaître l’information contenue dans le Data Warehouse. Elles sont idéalement
intégrées dans un référentiel.
Les principales informations sont destinées :
A l’utilisateur (sémantique, localisation).
Aux équipes responsables des processus de transformation des données du

système de production vers le Data Warehouse (localisation dans les systèmes de
production, description des règles, processus de transformation).
Aux équipes responsables des processus de création des données agrégées à

partie des données détaillées.
Aux équipes d’administration de la base de données ( structure de la base

implémentant le Data Warehouse).
Aux équipes de production (procédures de changement, historique de mise à

jour,…)

♦ Les données historisées
Un des objectifs du Data Warehouse est de conserver en ligne les données

historisées. Chaque nouvelle insertion de données provenant du système de
production ne détruit pas les anciennes valeurs, mais créee un nouvelle occurrence
de la donnée. Le support de stockage dépend du volume des données, de la
fréquence d’accès, du type d’accès. Les supports les plus couramment utilisés sont
les disques, les disques optiques numérique, les cassettes.
La logique d’accès aux données la plus utilisée est la suivante : les utilisateurs commencent
à attaquer les données par le niveau le plus agrégé, puis approfondissent leur recherche vers
les données les plus détaillées (Drill Drown).
L’accès des données se fait également directement par les données détaillées et historisées,
ce qui conduit à des brassages de données lourds, demandant des machines très puissantes.
Le Data Warehouse est une réussite dans une entreprise lorsque le nombre d’utilisateur
accédant aux données de détail augmente.
3.4.2 - LES ARCHITECTURES
Pour implémenter un Data Warehouse, trois types d’architectures sont possibles :
• L’architecture réelle,
• L’architecture virtuelle,
• L’architecture remote.
3.4.2.1 - L’ARCHITECTURE REELLE
Elle est généralement retenue pour les systèmes décisionnels.

Le stockage des données est réalisé dans un SGBD séparé du système de production. Le
SGBD est alimenté par des extractions périodiques.
Avant le chargement, les données subissent d’importants processus d’intégration, de
nettoyage, de transformation.
L’avantage est de disposer de données préparées pour les besoins de la décision et
répondant aux objectifs du Data Warehouse.
Les inconvénients sont le coût de stockage supplémentaire et le manque d’accès en temps
réel.
3.4.2.2 - L’ARCHITECTURE VIRTUELLE
Cette architecture n’est pratiquement pas utilisée pour le Data Warehouse.

Les données résident dans le système de production. Elles sont rendues visibles par des
produits middleware ou par des passerelles.
Il en résulte deux avantages : pas de coût de stockage supplémentaire et l’accès se fait en
temps réel.
L’inconvénient est que les données ne sont pas préparées.
3.4.2.3 - L’ARCHITECTURE REMOTE
C’est une combinaison de l’architecture réelle et de l’architecture virtuelle. Elle est rarement
utilisée.
L’objectif est d’implémenter physiquement les niveaux agrégés afin d’en faciliter l’accès et
de garder le niveau de détail dans le système de production en y donnant l’accès par le biais
de middleware ou de passerelle.
3.4.2.4 - SYNTHESE
Les différents éléments d'appréciation sont repris dans le tableau récapitulatif ci-dessous :
Architecture Architecture Architecture

réelle virtuelle remote
Retenue pour les Rarement utilisée Rarement utilisée
Utilisation
systèmes décisionnels
SGBD séparé du Données résidant dans Combinaison des
système de production, le système de architectures réelle et
Stockage
alimenté par des production virtuelle
extractions périodiques
Données préparées Pas de coût de
pour les besoins de la stockage
Avantages
décision supplémentaire, accès
en temps réel
Coût de stockage Données non
supplémentaire, préparées
Inconvénients
manque d’accès temps
réel
Tableau 12 : tableau de synthèse des architectures de data warehouse


3.4.3 - INFOCENTRE ET DATA WAREHOUSE
Certaines caractéristiques sont identiques. Mais il existe de nombreux éléments permettant

de différencier les deux notions.
L’infocentre est une collection de données orientées sujet, intégrées, volatiles, actuelles,
organisées pour le support d’un processus de décision ponctuel.
Le Data Warehouse est une collection de données orientées sujet, intégrées, non volatiles,
historisées, organisées pour le support d’un processus d’aide à la décision.
Dans un infocentre, chaque nouvelle valeur remplace l’ancienne valeur. Il est donc
impossible de retrouver une valeur calculée dans une session préalable aux dernières
alimentations. La non volatilité est une caractéristique essentielle du Data Warehouse.
De même, l’historisation des données dans un infocentre, il n’y a pas de gestion
d’historique des valeurs.
L’infocentre sert à prendre des décisions opérationnelles basées sur des valeurs courantes.
Au niveau d’un Data Warehouse, l’utilisateur travaille sur les historiques pour des prises de
décisions à long terme, des positionnements stratégiques et pour analyser des tendances.
Dans un infocentre, l’intégration des données est plus ou moins poussée. Le processus
d’alimentation est simple.
Le finalité d’un infocentre est de permettre aux utilisateurs d’accéder à leur données dans
leurs propres termes.

Infocentre Data Warehouse
Collection de données Collection de données
Orientées sujet Orientées sujet
Intégrées Intégrées
Volatiles Non volatiles
Actuelles Historisées
Organisées pour le support d’un Organisées pour le support d’un
processus de décision ponctuelle processus d’aide à la décision
Outil Architecture
Tableau 13 : tableau de comparaison entre infocentre et Data Warehouse
La mise en évidence des différences est exprimée par les questions suivantes :
• Quels infocentres sont motivés par des objectifs business et sont au service de la
stratégie de l’entreprise ?
• Quels infocentres permettent de connaître la concurrence, d’anticiper les besoins ?
• Quelles entreprises mesurent le retour sur investissement ?
L’infocentre est un outil alors que le Data Warehouse est une architecture.

4 - LA CONSTRUCTION DU DATA WAREHOUSE
L’objectif à atteindre est de recomposer les données disponibles pour en obtenir une vision
intégrée et transversale aux différentes fonctions de l’entreprise, une vision métier au travers
des différents axes d’analyse et une vision agrégée ou détaillée, adaptée à son besoin.
La transformation des données en connaissance est un processus complexe.
Application N
Application 3
Application 2
Application 1
ACQUISITION
STOCKAGE ACCES
IDENTIFIER
Infrastructure opérationnelle
Infrastructure technique
Tableau 14 : cadre général d’un Data Warehouse

Le cadre général d’un Data Warehouse comporte trois domaines principaux :
• les applications,
• les composants fonctionnels du Data Warehouse (acquisition, stockage, accès),
• les infrastructures (technique et opérationnelle).

4.1 - LES APPLICATIONS
Un Data Warehouse se fait en plusieurs itérations. Chaque sujet traité est décomposé en un
ensemble d’initiatives (projet décisionnel entrant en jeu dans la construction d’un Data
Warehouse dans une démarche itérative).
Les applications doivent rester maîtrisables et fournir des résultats tangibles dans un délai
de moins de six mois, qui correspond au délai moyen de réalisation d’applications.
Le périmètre de chaque application doit être clairement défini (acteurs concernés,
fréquences et périodicité des analyses, ...).
4.2 - LES COMPOSANTS FONCTIONNELS
Trois composants caractérisent un Data Warehouse :
• l’acquisition,
• le stockage,
• l’accès.
4.2.1 - L’ACQUISITION
Elle se compose de trois phases : l’extraction, la préparation et le chargement.
• L’extraction : collecter les données utiles dans le système de production.
• La préparation : plusieurs technologies sont utilisables :
• les passerelles, fournies par les éditeurs de base de données,

• les utilitaires de réplication, utilisables si les systèmes de production et
décisionnel sont homogènes,
• les outils spécifiques d’extraction (prix élevé).
La préparation inclus la mise en correspondance des formats de données, le

nettoyage, la transformation et l’agrégation.
• Le chargement : il constitue la dernière phase d’alimentation. Il est indispensable

de maîtriser la structure du SGBD (tables et index) pour optimiser au mieux le
processus.

4.2.2 - LE STOCKAGE
Le composant de base est le SGBD. Il doit être spécifiquement adapté aux caractéristiques
de l’accès décisionnel.
Du fait de l’importance de l’historique, la structuration physique des données est également
très importante.
Le SGBD apporte la transparence à l’évolution matérielle, l’indépendance, que ce soit au
niveau des types et du nombre de processeurs, des disques ou des mémoires, ainsi que la
transparence à l’évolution des systèmes d’exploitation.
4.2.3 - L’ACCES
Définir une architecture globale servant de support aux accès décisionnels impose des choix
technologiques non structurants. Il faudra mettre en place une infrastructure commune à
toutes les applications décisionnelles, tout en laissant aux utilisateurs l’opportunité d’utiliser
les solutions d’accès les mieux adaptées à leur problématique. (Les outils du marché sont les
requêteurs, les outils d’analyse multidimensionnelle, les EIS, le Data Mining, Les SIG).
Piloter
EIS
Analyser,
Agent intégré
Naviguer
aux outils
Interroger Les bases OLAP
Requêtes ad-hoc Les outils ROLAP
(QUERY)
Analyse "simple" (opérationnels)

POINTS
DE Entrepôt de données
VUES
"Data mining" (équipe R&D)

Simuler, prédire,
Visualisation avancée extrapoler
Outils de visualisation avancés Statistiques
Système d'information Réseaux de neurones...
géographique Segmenter, corrèler

Arbres de décision,
Découverte de règles,
Statistiques...
Tableau 15 : data warehouse - points de vue pour les utilisateurs


4.3 - LES INFRASTRUCTURES
Il y a deux niveaux d’infrastructures :
• l’infrastructure technique : l’ensemble des composants matériels et logiciels ( à

associer aux composants fonctionnels : alimentation, stockage et accès).
• l’infrastructure opérationnelle : l’ensemble des procédures et des services pour

administrer les données, gérer les utilisateurs et exploiter le système.
Pour la construction d’un Data Warehouse, de manière générale, il faut :
1. Bien connaître les métiers utilisateurs
• Impliquer les utilisateurs dans les projets,
• Faire participer l’utilisateur à la définition et à l’évolution des méta-données,
• Former l’utilisateur pour l’aider à comprendre la logique du Data Warehouse,
• Avoir un chef de projet orienté utilisateur.
2. Assurer une véritable conduite de projet
Le chef de projet fédère l’ensemble des besoins. Il organise et planifie les

différentes phases de déploiement en fonction de la culture de l’entreprise.
(La principale source d’échec serait humaine et non technique).
Seules les entreprises expérimentées peuvent faire l’économie d’un prototype.
3. Commencer petit et voir grand
Il faut commencer petit, qu’il s’agisse d’un prototype ou d’un Data Mart.
4. Gérer l’évolutivité
alimentation et administration. Ce sont les points critiques du processus de

construction du Data Warehouse.

5 - LA CONCEPTION DU DATA WAREHOUSE
Quatre caractéristiques ont des effets déterminants sur la démarche de conception d’un Data
Warehouse :
• Les évolutions technologiques : un système d’information peut se construire par

intégration d’un certain nombre de composants, chacun pouvant être choisi par
rapport à son contexte d’utilisation. L’entreprise défini son architecture en fonction
de ses besoins.
• La stratégie de l’entreprise : le Data Warehouse est très proche de la stratégie de

l’entreprise. L’objectif du Data Warehouse se définit en terme métier. Il faut donc
impliquer les utilisateurs ayant le plus de connaissances dans leur entreprise ou dans
leur métier.
• L’amélioration continue : un Data Warehouse doit évoluer en fonction des

demandes utilisateurs ou des nouveaux objectifs de l’entreprise.
• La maturité de l’entreprise : certaines entreprises ont déjà un système décisionnel.

D’autres n’ont aucun acquis.
Dans tous les cas, il n’existe pas de cadre figé pour la conception d’un Data Warehouse.
Chaque entreprise doit adapter le projet à son contexte, en ne perdant pas les objectifs de
vue. Cet objectif est de mettre en place un système d’information cohérent et intégré, le
système devant être décomposer en applications, chacune s’intégrant dans le Data
Warehouse.
Il est possible de proposer trois phases pour la conception :
• Définir le pourquoi du Data Warehouse et les objectifs à atteindre (impliquer les

utilisateurs).
• Définir l’infrastructure technique et organisationnelle du Data Warehouse.
• Mettre en œuvre les applications.

5.1 - DECOUVRIR ET DEFINIR LES INITIATIVES
Cette phase consiste en l’étude stratégique du Data Warehouse et la définition du plan

d’action.
5.1.1 - L’ETUDE STRATEGIQUE
Pendant l’étude stratégique, il faut :
• Informer et motiver les personnes concernées dans l’entreprise.

• Impliquer les managers, les équipes opérationnelles, les équipes informatiques :
phase d’identification et de compréhension des enjeux métier/entreprise.
• Identifier les projets Data Warehouse.
L’étude stratégique permet d’identifier la stratégie de l’entreprise, son organisation, les

processus qu’elle met en œuvre, la culture de l’entreprise.
Le but est de déterminer les domaines pour lesquels la mise en place d’un Data Warehouse
peut être le plus bénéfique.
A la fin de cette étude, des sous-projets ou initiatives vont être dégagés.
Les acteurs consultés doivent être des spécialistes métiers, convaincus de la nécessité et de
l’importance du Data Warehouse.
5.1.2 - LE PLAN D’ACTION
Pour mettre en place le plan d’action, il faut :

• Vérifier la faisabilité de chaque projet (s’assurer de l’existence et de la qualité des
données, des possibilités techniques, des possibilités organisationnelles).
• Estimer les ressources pour chaque projet, les besoins.
• Séquencer et planifier les projets.
Il est possible de commencer petit et voir grand : limiter l’objectif à un domaine précis
(Data Mart) ou faire un prototype. Ceci permet d’avoir un retour sur investissement rapide
et de prouver le bien fonder du concept.
Il faut déterminer la faisabilité de chaque projet envisagé et déterminer les moyens

nécessaires (techniques, humains, organisationnels) à leur réalisation.

Leur coût et leur durée de mise en œuvre sera estimé, ainsi que les bénéfices attendus et leur
terme.

Les projets envisagés (initiatives) doivent avoir une mise en œuvre courte ( environ six
mois) et doivent être bien délimités.
Il faut aussi évaluer le capital informatique, c’est-à-dire analyser les systèmes de production
sur lesquels le Date Warehouse doit s’appuyer, ce qui ne peut pas être fait sans voir
l’évaluation des initiatives.
Plusieurs décisions sont à prendre en ce qui concerne les données dont a besoin
l’entreprise :
• Si les données existent dans les systèmes de production, les initiatives sont
envisageables.
• Si les données n’existent pas dans l’entreprise, ni à l’extérieur (achat de fichiers), il
faut revoir ou abandonner les initiatives.
• Si les données n’existent pas dans l’entreprise, ni à l’extérieur, mais sont
stratégiques pour l’entreprise, il faut reporter.
• Si les données existent à l’extérieur, il faut prendre la décision d’achat.
Les estimations ne doivent pas être détaillées et doivent concerner le plus grand nombre
possible d’initiatives. Ce sera sur cette base que la politique technologique du Data
Warehouse sera déterminée.
5.2 - L’INFRASTRUCTURE
Il s’agit de déterminer l’infrastructure technologique et organisationnelle nécessaire à la

mise en place du Data Warehouse et à la conduite du changement.
5.2.1 - L’INFRASTRUCTURE TECHNIQUE
Des choix technologiques en phase avec la politique de l’entreprise doivent être faits à
plusieurs niveaux :
• Les fournisseurs : faut-il prendre un seul fournisseur (ce qui facilite la politique
d’intégration et en réduit les coûts de mise en œuvre) ou assembler les meilleurs
offres du marché (ce qui apporte une flexibilité, une adaptation à chaque projet,
mais coûte beaucoup en intégration).
• Les outils : faut-il construire, acheter ou faire avec l’existant.
• Comment sera utilisé le Data Warehouse, par qui, comment sera structuré
l’organisation qui l’exploitera.

• Faut-il une architecture centralisé (Data Warehouse), distribuée (plusieurs Data

Mart), ou une architecture répliquée (un Data Warehouse et plusieurs Data Mart).
• La structure de stockage, sera-t-elle relationnelle, multidimensionnelle, hybride
(Data Warehouse en relationnel, Data Mart en multidimensionnel).
• Choisir le matériel : selon les volumes envisagés, les utilisateurs concernés,
l’architecture visée, la flexibilité attendue.
• Organiser l’administration des systèmes et la gestion de la sécurité.
Il faut vérifier que les solutions choisies fonctionnent entre elles. (Ne pas se fier aux
plaquettes commerciales en ce qui concerne la portabilité).
5.2.2 - L’INFRASTRUCTURE ORGANISATIONNELLE
Parallèlement aux choix technologiques, il faut :
• Déterminer la logistique et l’organisation nécessaires à la concrétisation des

initiatives.
• Répartir les tâches entre les équipes de développement et les équipes d’exploitation :
déterminer l’alimentation du Data Warehouse, l’administration.
• Déterminer les flux d’information entre le Data Warehouse et les utilisateurs.
5.3 - LA FORMATION
Selon l’expérience de l’entreprise en matière de décisionnel et des technologies utilisées, un

plan de formation sera nécessaire.
Il sera impératif que les membres participants au projet soient favorables au changement.
5.4 - LA MISE EN ŒUVRE DES APPLICATIONS
La mise en œuvre est réalisée pour chaque initiative. La démarche proposée est une
démarche en cinq étapes :
• la spécification,
• la conception,
• la mise en œuvre et l’intégration,
• le déploiement et la mise en place des accompagnements,

• les mesures.
Ces étapes correspondent à celles de mise en place d’un projet informatique.
Pendant l’étape de spécification, les différentes étapes des initiatives sont définies et
planifiées de manière plus détaillées.
Il est recommandé de faire attention aux coûts cachés que peuvent entraîner les technologies
informatiques.
L’étape de mesure permet de faire le bilan de la réalisation et de capitaliser les réussites et
échecs rencontrés pendant le développement de l’application.
Deux visions du Data Warehouse cohabitent dans l’approche précédente :
• Une vision entreprise : chaque projet défini dans la première phase (initiative) est
construit de manière indépendante et répond à un objectif métier délimité, tout en
s’intégrant dans le Data Warehouse.
• Une vision projet : les projets identifiés deviennent des applications. Donc le
processus est itératif.
Il n’existe pas de démarche complète et universelle pour la mise en œuvre d’un data
Warehouse. Toute approche doit être adaptée à l’entreprise.

6 - L’ADMINISTRATION DES DONNEES
Comme tout autre système informatique, un Data Warehouse s’administre.

Dès la phase de conception de l’architecture, il faut penser à l’administration des données :
c’est une des fonctions les plus importantes du Data Warehouse.
Cette fonction est d’autant plus importante que le Data Warehouse évolue au fur et à mesure
de son utilisation.
La mise en place d’un Data Warehouse doit s’accompagner de celle d’un référentiel de
données, permettant de décrire, stocker et diffuser les méta-données associées.
Cette mise en place passe par l’organisation d’une fonction d’administration des données à
plusieurs niveaux, par la définition de normes et de procédure d’administration des
référentiels.
6.1 - LES METADONNEES
Elles représentent toutes les informations nécessaires à l’accès, à la compréhension et à

l’exploitation des données du Data Warehouse.
Type d’information Signification

Sémantique Que signifie la donnée
Origine D’où vient-elle, où, par qui est-elle créée ou mise à jour
Règle de calcul Règle de calcul, de gestion
Règle d’agrégation Périmètre de consolidation
Stockage, format Où, comment est-elle stockée, sous quel format
Programmes informatiques qui l’utilisent,
Utilisation Machines : comment et sur lesquelles, à disposition,
Temps de conservation
Tableau 16 : définition d’une méta-donnée

La donnée est forcément liée à d’autres objets du système d’information. Il est donc
nécessaire de représenter, décrire et stocker les interactions avec d’autres données.
Types de lien Signification

Domaines, sujets Chaque donnée va être indexée par sujet ou domaine
Structure Une donnée peut avoir des sens légèrement différents
organisationnelle, selon la personne qui la manipule
structure géographique
Concepts génériques Exemple : notion de produit se déclinant en lignes de
produits, services,...
Applications, Donnée manipulée par une ou plusieurs applications ou
programmes programmes
Tables, colonnes Donnée située dans une ou plusieurs colonnes, tables et
bases de données
Sites, machines Localisation physique de la donnée
Tableau 17 : interactions des données
Généralement, pour représenter les méta-données, on utilise un symbolisme courant en

informatique. Par exemple les modèles de données MERISE : modèle conceptuel de
données et modèle logique de données.
6.2 - LE REFERENTIEL DU DATA WAREHOUSE
Le référentiel du Data Warehouse est l’ensemble des outils nécessaires à la mise en œuvre
de la fonction d’administration de données.
Les objectifs de l’administration de données du Data Warehouse sont :
• Assurer la cohésion du système :
− Respecter la cohérence et la fiabilité des informations.

− Unifier la représentation des données.
− Respecter la cohérence des concepts.
− Vérifier la non redondance des informations.

• Simplifier techniquement les systèmes d’information :
− Diminuer le nombre de fichiers.

− Unifier la saisie et le stockage des informations.
− Organiser les mises à jour et la diffusion des informations.
Un référentiel de données pour le Data Warehouse est un référentiel de données dans lequel
sont décrits l’organisation et la localisation des données, ainsi que les règles de
consolidation des données agrégées et historisées.
Il est conçu de manière à collecter l’ensemble des modèles de données nécessaires à la
construction et à l’exploitation du Data Warehouse.
La construction du référentiel est un projet qu’il est nécessaire de prévoir en parallèle à celui
du data Warehouse.
6.3 - LA MISE EN ŒUVRE
Il n’existe pas une seule manière de le faire. La problématique doit être considérée sous
deux aspects : organisationnel et technique.
Acheter une solution clé en main est très risquée : les fonctionnalités de l’outil
conditionnent alors l’organisation du projet.
Quelque soit l’outil choisi, il faut pouvoir le faire évoluer afin de s’adapter à de nouveaux
besoins.
6.3.1 - SECURITE
Le Data Warehouse a pour vocation de laisser à l’utilisateur une totale autonomie en ce qui
concerne la recherche et l’analyse des données. Cette liberté doit cependant être souvent
restreinte, notamment pour des raisons de sécurité. L’outil doit donc permettre d’adapter
l’environnement de travail à l’utilisateur qui s’y connecte selon sa fonction et donc ses
droits. Afin de mener à bien cette politique de sécurité, les notions d’utilisateur et de
groupe d’utilisateur sont indispensables. Cette notion doit néanmoins être dissociée de la
notion d’utilisateur du serveur de données. Il est en effet préférable que l’utilisateur se
connecte directement à l’outil d’aide à la décision et accède de manière transparente au
serveur de données sans en connaître le nom d’utilisateur et le mot de passe. Il n’y a ainsi
pas de risque que l’utilisateur se connecte au serveur par d’autres biais. Ce risque est
d’autant plus important que l’utilisateur trouve le plus souvent sur son poste de travail les
moyens de se connecter à un serveur de données. Il peut par exemple se connecter à partir
d’Excel à un serveur de données, via le driver ODBC.
Plus les autorisations pourront être définies à un niveau fin , plus l’environnement de
travail pourra être facilement adapté à chacun des profils d’utilisateur. Au delà du
catalogue dans sa globalité, l’outil doit donc permettre de définir des droits sur chacun de
ses éléments en restreignant le nombre de tables ou de colonnes disponibles ou, par un
critère de recherche, le nombre de lignes accessibles.
Au delà des droits concernant l’accès aux données, la possibilité d’affecter des privilèges
sur les requêtes et rapports prédéfinis est un facteur essentiel dans la définition d’une
stratégie de diffusion.
6.3.2 - GESTION DES PERFORMANCES
La possibilité de limiter les accès aux ressources permet à l’administrateur de mieux

contrôler les requêtes émises par l’utilisateur. Ce besoin est surtout essentiel pour les outils
d’infocentre, qui peuvent offrir à l’utilisateur un espace de liberté et d’autonomie
important. En effet contrairement aux outils basés sur un modèle multidimensionnel, les
utilisateurs accèdent aux informations non selon un schéma prédéfini mais selon leurs
besoins. Ils génèrent ainsi les requêtes qu’ils veulent et n’accèdent pas toujours à un serveur
optimisé en conséquence.
Ce contrôle des ressources peut prendre plusieurs formes :
limitation du temps d’exécution ; cette fonctionnalité ne sera néanmoins pas géré

de manière optimale par l’outil qui, à moins d’avoir déjà effectué une requête
identique, n’a pas moyen de connaître à priori le temps qu’elle prendra. Certains
serveurs (Ingres et Oracle notamment) offrent cette fonctionnalité. L’idéal est donc
d’avoir un outil capable de demander au serveur le temps que va mettre une requête
et d’agir ensuite en conséquence (par exemple, refuser la demande selon
l’utilisateur). Sinon, l’outil peut permettre l’abandon de requêtes trop longues.
limitation du nombre de lignes récupérées ; l’outil peut soit permettre de ramener

les lignes par paquets, soit ne rapatrier qu’un certain nombre d’enregistrements, soit
abandonner une requête ramenant un volume trop important de données. L’outil, en
cas de dépassement des limites, peut soit prévenir l’utilisateur et lui demander si il
souhaite continuer, soit abandonner la demande.
Le contrôle du corps des requêtes permet de limiter considérablement le nombre de

demandes coûteuses. Ce contrôle peut s’exercer sur différents paramètres :
le nombre de tables interrogées ;
les jointures, l’administrateur peut notamment interdire tout produit cartésien. Il

peut de plus être intéressant d’imposer d’utiliser que les colonnes indexées ou
d’interdire un nombre trop important de théta-jointures, ...

Ce besoin de contrôler les performances est dû à l’autonomie laissée aux utilisateurs par les
outils d’infocentre. En effet, l’administrateur n’a que très peu de maîtrise sur ce que vont
faire les utilisateurs et le modèle de données ne peut être dès le départ optimisé pour un type
d’utilisation particulier. Des fonctions d’audit permettent de remédier à cela en donnant à
l’utilisateur une vision des demandes les plus et les moins fréquemment utilisées. Il peut
alors paramétrer et optimiser son environnement (serveur, client) en conséquence. L’outil
doit donc offrir la possibilité de journaliser le texte des requêtes, leur durée d’exécution, le
nom de l’utilisateur les ayant envoyées.
6.3.3 - BATCHS
La possibilité d’effectuer des requêtes en batch est une fonctionnalité essentielle dans un
contexte de Data Warehouse où une requête peut avoir besoin de manipuler un volume
important de données. Un scheduler, planificateur, peut alors permettre d’envoyer une
requête à un instant donné ou à intervalles réguliers. Imposer des plages horaires aux
utilisateurs pour ces requêtes coûteuses est alors également une nécessité. L’administrateur
peut gérer les priorités d’après les requêtes ou les utilisateurs. Le scheduler doit permettre
non seulement d’envoyer une requête mais une série de requêtes. Un mécanisme d’alertes
peut alors avertir l’utilisateur si des valeurs sont exceptionnelles. On passe alors d’une
logique pull (l’utilisateur part à la recherche de l’information pertinente) à une logique push
(l’information vient vers l’utilisateur quand elle est jugée pertinente). Outre les requêtes
définies avec l’outil d’aide à la décision, le scheduler peut également permettre de lancer
des requêtes d’administration à un instant donné, pendant des plages horaires peu
occupées.

7 - LE DATA MART
Avec un Data Warehouse, il y a des risques d’échec. Rien n’invite l’utilisateur à se servir
d’un Data Warehouse. Le succès d’un Data Warehouse dépend donc uniquement de son
effective utilisation. Un des gros risques de la construction est de se cristalliser autour de la
problématique informatique et de se détourner de l’utilisateur. Le Data Mart minimise la
complexité informatique. Il est donc plus facile de se concentrer sur les besoins utilisateurs.
7.1 - DEFINITION
Le Data Mart est une base de données moins coûteuse que le Data Warehouse, et plus
légère puisque destinée à quelques utilisateurs d’un département. Il séduit plus que le Data
Warehouse les candidats au décisionnel.
C’est une petite structure très ciblée et pilotée par les besoins utilisateurs. Il a la même
vocation que le Data Warehouse (fournir une architecture décisionnelle), mais vise une
problématique précise avec un nombre d’utilisateurs plus restreint. En général, c’est une
petite base de données (SQL ou multidimensionnelle) avec quelques outils, et alimentée par
un nombre assez restreint de sources de données. Son coût ne dépasse pas deux à trois
millions de francs.
Mais pour réussir, il y a quelques précautions à prendre, gage de son évolutivité vers le Data
Warehouse.
Data Warehouse Data Mart

Cible utilisateur Toute l’entreprise Département
Implication du Elevée Faible ou moyen
service informatique
Base de données SQL type serveur SQL milieu de gamme, bases
d’entreprise multidimensionnelles
Modèles de données A l’échelle de l’entreprise Département
Champ applicatif Multi sujets, neutre Quelques sujets, spécifique
Sources de données Multiples Quelques unes
Stockage Base de données Plusieurs bases distribuées
Taille Centaine de GO et plus Une à 2 dizaines de GO
Temps de mise en 9 à 18 mois pour les 3 étapes 6 à 12 mois (installation en
place plusieurs étapes)
Coût > 6 millions de francs 500.000 à 3 millions de
francs
Matériel Unix NT, petit serveur Unix
Tableau 18 : finalités des data marts et data warehouse

7.2 - MISE EN PLACE
Construire un ou plusieurs Data Marts départementaux au lieu d’un Data Warehouse central
permet de valider rapidement le concept d’informatique décisionnelle.
Mais construire des Data Marts n’est pas sans risques :
• En effet, dans les entreprises, des Data Marts isolés peuvent proliférer. Ces
entreprises risquent de retomber dans le piège d’une architecture composée de
multiples systèmes décisionnels incohérents, contenant des informations
redondantes. Cela coûte plus cher et c’est plus complexe à gérer qu’un Data
Warehouse centralisé. Les entreprises américaines, plus en avance que les
entreprises européennes, en ont fait les frais.
• Les Data Marts résolvent les problèmes de performance des gros Data Warehouse.
Mais ils font régresser vers le vieux problème des îlots isolés. Les entreprises vont
devoir affronter des problèmes techniques complexes et coûteux pour remettre en
cohérence les ensembles.
• Fédérer des Data Marts ou les faire évoluer vers une structure centralisée n’est pas
facile.
On peut se poser la question s’il est préférable de bâtir un gros et unique Data Warehouse
ou bien de concevoir un réservoir plus modeste, nourri par les données d’un seul
département.
Il est intéressant de commencer par un Data Mart, à condition de respecter certaines règles :
• Impliquer les utilisateurs.

• Ne pas construire de multiples Data Marts isolés.
• Bannir les redondances.

Les Data Marts sont petits

Les Data Marts sont moins complexes et plus facile à déployer
que les Data Warehouse
Les Data Marts peuvent évoluer facilement vers un Data
Warehouse
Les différents Data Marts indépendants peuvent être
dynamiquement coupler pour se métamorphoser en Data
Warehouse
Les Data Marts ne se résument qu’à une seule information
métier (exemple : ventes)
Les Data Marts sont plus flexibles que les Data Warehouse
Les Data Marts sont un nouveau concept.
Tableau 19 : les sept mythes du data mart
(source : Gartner Groupe)
Donc le Data Mart peut préparer au Data Warehouse. Mais il faut penser grand, avenir, et
adopter des technologies capables d’évoluer.

8 - LE CONCEPT OLAP
8.1 - PRESENTATION
Les outils OLAP (On Line Analytical Process) reposent sur une base de données
multidimensionnelle, destinée à exploiter rapidement les dimensions d'une population de
données.
La plupart des solutions OLAP reposent sur un même principe : restructurer et stocker dans
un format multidimensionnel les données issues de fichiers plats ou de bases relationnelles.
Ce format multidimensionnel, connu également sous le nom d'hypercube, organise les
données le long de dimensions. Ainsi, les utilisateurs analysent les données suivant les axes
propres à leur métier.
Ce type d'analyse multidimensionnelle nécessite à la fois l'accès à un grand volume de
données et des moyens adaptés pour les analyser selon différents points de vue. Ceci inclut
la capacité à discerner des relations nouvelles ou non prévues entre les variables, la capacité
à identifier les paramètres nécessaires à manier un volume important de données pour créer
un nombre illimité de dimensions et pour spécifier des expressions et conditions
inter-dimensions. Ces dimensions représentent les chemins de consolidation.
OLAP concerne de ce fait au moins autant le monde des serveurs, voire des
structures de stockage, que celui des outils.
8.2 - LES 12 REGLES OLAP
Afin de formaliser le concept OLAP, fin 1993, à la demande de Arbor Software, Edgar F.
Codd publie un article intitulé "Providing OLAP to User Analysts" aux Etats Unis, dans
lequel il définit 12 règles que tout système de pilotage multidimensionnel devrait respecter..
"Ce qu’il y a d’agréable avec ces outils OLAP", explique Eric Klusman, de Cantor
Fitzgerald LP, "c’est que je suis en mesure de distribuer les données aux utilisateurs sans
les obliger à apprendre des complexes formules de programmation, d’interrogation ou
même à ce qu’ils aient à programmer leurs tableurs". D’une façon générale, tous affirment
que l’on peut interfacer de nombreux outils d’utilisateurs avec des bases de données
multidimensionnelles sans qu’il soit nécessaire de consentir de lourds efforts de formation
ou des interventions importantes du service informatique.

Vue multidimensionnelle
L'utilisateur a l'habitude de raisonner en vue multidimensionnelle comme par exemple

lorsqu'il souhaite analyser les ventes par produit mais aussi par région ou par période. Ces
modèles permettent des manipulations simples : rotation, pivot ou vues par tranche, analyse
de type permutations d'axes (slice and dice) ou en cascade (drill anywhere).
Transparence du serveur OLAP à différents types de logiciels
Cette transparence se traduit pour l'utilisateur par un complément à ses outils habituels
garantissant ainsi sa productivité et sa compétence. Elle s'appuie sur une architecture
ouverte permettant à l'utilisateur d'implanter le système OLAP sans affecter les
fonctionnalités du système central.
Par ailleurs, l'utilisateur ne doit pas être concerné par l'intégration des données dans OLAP
provenant d'un environnement homogène ou hétérogène.
Accessibilité à de nombreuses sources de données
Le système OLAP doit donner accès aux données nécessaires aux analyses demandées. Les
outils OLAP doivent avoir leur propre schéma logique de stockage des données physiques
hétérogènes, doivent accéder aux données et réaliser n'importe quelle conversion afin de
présenter à l'utilisateur une vue simple et cohérente. Ils doivent aussi savoir de quel type de
systèmes proviennent les données.
Performance du système de Reporting
L'augmentation du nombre de dimensions ou du volume de la base de données ne doit pas

entraîner de dégradation visible par l'utilisateur.
Architecture Client/Serveur
La plupart des données pour OLAP sont stockées sur des gros systèmes et sont accessibles
via des PC. Il est donc nécessaire que les produits OLAP soient capables de travailler dans
un environnement Client/Serveur.
Dimensions Génériques
Toutes les dimensions doivent être équivalentes en structure et en calcul. Il ne doit exister
qu'une seule structure logique pour toutes les dimensions. Toute fonction qui s'applique à
une dimension doit être aussi capable de s'appliquer à une autre dimension.

Gestion dynamique des matrices creuses
Le schéma physique des outils OLAP doit s'adapter entièrement au modèle d'analyse
spécifique créé pour optimiser la gestion des matrices creuses. En effet, dans une analyse à
la fois sur les produits et les régions, tous les produits ne sont pas vendus dans toutes les
régions.
Support multi-utilisateurs
Les outils OLAP doivent supporter les accès concurrents, garantir l'intégrité et la sécurité
afin que plusieurs utilisateurs accèdent au même modèle d'analyse.
Support multi-utilisateurs
Les outils OLAP doivent supporter les accès concurrents, garantir l'intégrité et la sécurité
afin que plusieurs utilisateurs accèdent au même modèle d'analyse.
Calculs à travers les dimensions
Les opérations doivent pouvoir s'effectuer sur toutes les dimensions et ne doivent pas faire
intervenir l'utilisateur pour définir un calcul hiérarchique.
Manipulation intuitive des données
Toute manipulation doit être accomplie via une action directe sur les cellules du modèle
sans utiliser de menus ou des chemins multiples à travers l'interface utilisateur.
Souplesse et facilité de constitution des rapports
La création des rapports dans les outils OLAP doit permettre aux utilisateurs de présenter
comme ils le désirent des données synthétiques ou des résultats en fonction de l'orientation
du modèle.
Nombre illimité de niveaux d'agrégation et de dimensions
Tout outil OLAP doit gérer au moins 15 à 20 dimensions.

D'après EF CODD & Associates, les SGBD Relationnels n'ont jamais été conçus pour
fournir les puissantes fonctions de synthèse, d'analyse et de consolidation communément
appelées analyse multidimensionnelle des données. Ces types de fonctions ont toujours été
prévus pour être fournis par des outils séparés, orientés utilisateurs et complémentaires des
SGBD Relationnels. Les tables vont être transformées en un hypercube de données. Les
données vont pouvoir être visualisées sous différents angles grâce aux vues
multidimensionnelles.
OLAP, parce qu'il associe des mécanismes de navigation aux données, permet d'effectuer
des analyses de manière interactive, à l'opposé du requêteur pour qui chaque requête est une
fin en soi. Par contre, OLAP ne permet l'analyse d'information que dans un cadre prédéfini,
limitant dès lors l'autonomie potentielle de l'utilisateur. De ce fait requêtes et outils OLAP
doivent être considérés comme complémentaires plutôt que concurrents.
Requêtes et outils OLAP doivent être considérés comme complémentaires

plutôt que concurrents.
8.2.1 - TYPOLOGIE DES REGLES O.L.A.P.

Reprenant la structure du système décisionnel, nous rappelons qu’un système d’analyse
multidimensionnelle peut se décomposer en 2 Siad élémentaires, un SGBD, un Tableur.
Ainsi, nous présentons ces 12 règles en les classant selon les éléments du système
décisionnel auxquels elles se rapportent. ( Cf Figure Ci-dessous).
12 Règles de
Analyse Mutidimensionnelle
Codd.
Système & Architecture 5 Règles
SGBD_SIAD_2 2 Règles
Tableur_SIAD_1 3 Règles
Interface Utilisateur 2 Règles
Tableau 20 : Ventilation des Règles de Codd.
Ces règles s’énoncent ainsi :

Système & Architecture

L’architecture est Client / Serveur
L’accès possible à plusieurs utilisateurs simultanément
La performance demeure stable quelque soit le volume de données
Le système est transparent pour l’utilisateur
Le système gère dynamiquement les Matrices Creuses
SGBD_SIAD_2
Vue Conceptuelle Multidimensionnelle des données
Accessibilité à toutes les données utiles à la décision
Tableur_SIAD_1
Nombre Illimité de Dimensions et Nombre illimité de niveaux
d’agrégation
Toutes les dimensions sont équivalentes en structure et en calcul
Il n’y a pas d’opérations restrictives sur les dimensions
Interface Utilisateur
Souplesse de Création de Rapports
8.2.2 - COMMENTAIRES
Codd fixe la méthode de SGBD; celle-ci est multidimensionnelle. Cet aspect est
développé dans le paragraphe suivant au travers des méthodes M_OLAP et
R_OLAP.
« Accessibilité à toutes les données utiles à la décision » entraîne la possibilités
d’accéder à plusieurs bases de données internes ou externes à l’entreprise.
Conséquence : Codd recommande l’architecture Client-Serveur.
Aucun tableur n’offre un nombre infini de dimensions et de niveaux d’agrégation.
15 à 20 dimensions font partie des performances actuelles.
Enfin, nous pourrions regrouper les règles orientées « Utilisateur » :
Système & Architecture
L’accès possible à plusieurs utilisateurs simultanément
La performance demeure stable quelque soit le volume de données
Le système est transparent pour l’utilisateur
SGBD_SIAD_2
Accessibilité à toutes les données utiles à la décision
Interface Utilisateur
Souplesse de Création de Rapports

9 - ANALYSE MULTIDIMENTIONNELLE
Les serveurs OLAP ont été conçus pour s'intégrer dans un environnement client/serveur
afin d'en retirer les possibilités offertes. Les utilisateurs disposant de postes de travail
intelligents accèdent à un serveur de base de données multidimensionnelle. Celui-ci contient
un hypercube prédéfini dans lequel doit être stockée la globalité des données. Ce qui
nécessite de s'appuyer sur une information pré-packagée et fortement structurée. Il
permettra ainsi d'analyser la répartition d'un indicateur comme le " chiffre d'affaire" en
fonction des axes ou dimensions " clients ", " produit ", " temps". En outre, des hiérarchies
seront définies pour chaque axe d'analyse (par exemple, l'année, puis la saison, le mois et la
semaine, pour l'axe temps). Une fois cette structure multidimensionnelle établie, l'outil
OLAP propose des méthodes de navigation dans les données, comme le "drill-down" pour
aller vers les informations détaillées dans une hiérarchie, le "slice and dice" pour changer
d'axe d'analyse.
Temps
4000 1000
8000
Client 7000
3000
8000
12000 1000
2000
6000
8000
Produit
Tableau 21 : représentation sous forme de cube

9.1 - LE MODELE
9.1.1 - LES DIMENSIONS
Un axe d’analyse essentiel est la dimension temps. Les tables contiennent des rangées
(tuples, enregistrements). Chaque rangée est constituée de colonnes (champs). Dans une
base de données standard, le premier champ de chaque enregistrement est la clé primaire,
l'unique identifiant de l'enregistrement. Par contre, le modèle de données multidimensionnel
est un tableau à n dimensions (hypercube). Chaque dimension possède une hiérarchie
associée de niveaux de consolidation. Chaque position dans un tableau multidimensionnel,
correspondant à une intersection de toutes les dimensions est appelée une cellule.
Ces dimensions peuvent être affinées, décomposées en hiérarchies, afin de permettre à

l’utilisateur d’examiner ses indicateurs à différents niveaux de détail, de " descendre " dans
les données, allant du niveau global au niveau le plus fin. Par exemple, une date pourra être
décomposée en <année, mois, semaine, jour>. On aura alors une vision pyramidale des
données, la base de la pyramide représentant le niveau le plus détaillé et le haut le niveau le
plus global.
Année
Hiérarchie
d'une Mois
dimension
Semaine
Jour
Produit
Période
Indicateurs Dimensions
numériques d'analyse
Tableau 22 : représentation pyramidale
L’utilisateur peut avoir besoin de personnaliser le modèle défini par l’administrateur en

incorporant par exemple ses propres attributs dans les dimensions ou en modifiant certaines
des hiérarchies.

9.1.2 - LES VARIABLES
Les variables, qui sont aussi appelées métriques, dans un tableau multidimensionnel
correspondent aux colonnes d'une table relationnelle. Les valeurs à l'intérieur d'une colonne
correspondent aux valeurs pour cette variable dans un tableau multidimensionnel.
Par rapport à l’axe temps, nous pouvons distinguer deux types de variables à analyser :
des variables de flux, dont les variations sont enregistrées dans la base de données.
Pour déterminer leur montant pendant une certaine période, il suffit de cumuler les
différentes variations ayant eu lieu dans cette période. Par exemple, pour obtenir le
chiffre d'affaire du mois de Mai 1998, il suffit de faire la somme des chiffres
d'affaire de chaque jour du mois.
des variables d’état, indiquant le contenu d’une variable à un instant t. Le cumul des
valeurs prises dans une période donnée n’indique généralement plus la valeur de
cette variable pour cette période. Par exemple pour une variable indiquant l’état du
stock au début de chacun des trimestres, l’entreprise peut considérer que l’état du
stock pour l’année est égal à son état au 1er trimestre. Les valeurs des 4 trimestres
n’ont donc pas à être cumulées pour obtenir le stock annuel. L’administrateur ou
l’utilisateur doit pouvoir indiquer à l’outil si une variable est une variable d’état et
quelle valeur elle devra prendre pour un attribut donné.
Les métriques de base sont l’association d’une colonne de fait et d’une fonction
d’agrégation. Il est indispensable que l’utilisateur puisse aller au-delà et utiliser des
métriques complexes, dérivées de ces éléments de base en définissant des métriques
composées d’autres métriques, filtrées ou calculées par rapport à une dimension particulière.
Une variable sera élue indicateur selon la stratégie choisie. Par exemple pour analyser les
ventes on choisira comme indicateur la variable CA (chiffre d’affaires).
L’utilisateur formulera alors ses requêtes en précisant les indicateurs à

analyser (le chiffre d’affaires), les dimensions sur lesquelles ces analyseurs
doivent être projetées (le produit et le client) et la population à observer (le
mois de Mars 1998).

9.2 - NAVIGATION DANS LES DONNEES
9.2.1 - DRILL-DOWN, DRILL-UP
Le drill-down / up désigne la faculté d’aller du niveau global vers le niveau détaillé, et

inversement.
Ce mécanisme est totalement basé sur la notion de hiérarchie.
Chacun des axes d’analyse se décompose en attributs reliés entre eux par des relations père /
fils. Une dimension doit normalement pouvoir comporter plusieurs hiérarchies. Par
exemple, la dimension " produits " peut contenir une hiérarchie " Marque-Article " et une
hiérarchie " Secteur-Segment-Article ". Le mécanisme de drill-down se fera ainsi de la
marque vers l’article et du secteur vers le segment puis vers l’article. La mise en œuvre de
cette fonctionnalité n’est cependant pas toujours aussi simple. En effet, une dimension peut
contenir des hiérarchies partant d’un même attribut pour aller vers un attribut différent. Par
exemple, l’axe " Clients " peut contenir la hiérarchie " Client-Individu " et la hiérarchie
" Client-Société-Filiale ". L’outil doit alors permettre soit de redescendre de Client vers à la
fois Individu et Société puis de redescendre au niveau Filiale pour les clients de type
Société, soit plus simplement, permettre à l’utilisateur de choisir de redescendre vers le
niveau Individu ou vers le niveau Société.
Secteur
Client
Marque Segment
Individu Société
Article Filiale
Tableau 23 : exemple de hiérarchies multiples
9.2.2 - SLICE AND DICE
Le " Slice and dice " désigne la possibilité de faire pivoter dynamiquement les axes du
tableau d’analyse croisée. Il est possible ainsi de passer d’un tableau présentant les ventes
par magasin en lignes et jour en colonnes par un tableau similaire présentant les ventes par
magasin en colonnes et jour en ligne.

9.2.3 - DATA SURFING
Le data surfing est la possibilité laissée à l’utilisateur de circuler librement, de manière

intuitive et ergonomique dans un modèle dimensionnel, au delà d’un " simple " drill-down
ou slice and dice. L’utilisateur peut alors modifier dynamiquement ses axes d’analyse ou
appliquer un nouveau filtre à ses données.
Ces mécanismes s’appliquent sur le modèle défini soit par l’administrateur, soit
par l’utilisateur.
Ce modèle doit être assez complexe pour adresser l’ensemble des demandes de l’utilisateur
et assez souple pour que l’utilisateur puisse le personnaliser à son goût, en créant de
nouveaux attributs ou de nouveaux axes d’analyse ou en définissant de nouvelles métriques
calculées.
9.3 - PROBLEME DES MATRICES CREUSES

Dans un cube idéal, toutes les cellules ont une valeur, on parle alors de cube dense. Ceci est
cependant rarement le cas. Si certaines valeurs sont absentes, on parlera de cellules creuses,
d’éparpillement (sparcity). Ceci se rencontre notamment dans les cas suivants :
des enregistrements n’appartenant qu’à une seule dimension.

des dimensions qui n’ont pas de valeur pour chaque occurrence. Plus on a de
dimensions, plus le risque d’éparpillement des données est grand.
des dimensions comportant des valeurs exclusives. Par exemple, la dimension
« sexe » est crée, chaque enregistrement sera soit homme, soit femme, ce qui
engendrera un fort taux de cellules creuses lors de l’analyse du CA par client et par
sexe. Autre exemple, dans un magasin on ne vend pas chaque jour tous les articles.
Le cube comportera alors un nombre important de cellules creuses.
L’ajout de colonnes pré-calculées fera aussi croître de manière significative la taille de la

base de données. Dans un contexte de données stockées sous un format d’hypercube, il est
donc important de choisir ses dimensions avec attention, d’en restreindre le nombre en
définissant le plus possible de dimensions composées. Une autre alternative est de diviser
un hypercube en de petits cubes.
Le stockage des données sous une forme relationnelle permet d’éluder ces
problèmes de place et de cellules creuses.

10 - MODELISATION
Modéliser est une tâche délicate car elle met en jeu des populations différentes. Les
administrateurs de données et les utilisateurs "métiers" doivent créer un modèle global et
cohérent pour l'entreprise.
Les données du Data Warehouse doivent être orientées " sujet ", facilement
compréhensibles et utilisables par les utilisateurs.
Le modèle doit donc être adapté à leur démarche de recherche et d’analyse. Les modèles
relationnels normalisés ne sont alors pas toujours l’idéal. En effet, ils correspondent
généralement plus à une vision " technique " et informaticienne des données qu’à une vision
utilisateur. Ils peuvent répondre aux requêtes ensemblistes (liste des commandes d’un
client) ou détaillées (adresse et numéro de téléphone d’un client) mais adressent très peu la
notion d’analyse qui est essentielle dans le monde décisionnel. Ce concept est généralement
lié à une vision multidimensionnelle des données. L’utilisateur peut ainsi analyser des
informations selon diverses perspectives, par rapport à différents axes (par exemple les
ventes par rapport aux dimensions temps, régions et clients). La dénormalisation du modèle
des données, la redondance d’informations sont totalement envisageables dans un contexte
de Data Warehouse car la non volatilité des données permet de ne pas se préoccuper, lors de
l’utilisation du Data Warehouse, des problèmes d’intégrité des données ou de transaction.
Afin de répondre à ce type de besoin tout en conservant la technologie des SGBD
relationnels, il sera souvent nécessaire de modéliser les données de manière particulière, en
distinguant les différents axes et les indicateurs à analyser. On parlera alors de modèle en
étoile (star) ou en flocon (snowflake).
Le serveur de données devra donc permettre la gestion de gros volumes d’informations et
supporter les machines parallèles. Afin d’offrir à l’utilisateur une performance optimale, il
sera indispensable d’agréger physiquement les données (par exemple par rapport au temps),
et souvent nécessaire de partitionner ces données.
Cinq axes permettent de qualifier un modèle décisionnel :
Lisibilité du point de vue de l'utilisateur final.

Performances de chargement
Performances d'exécution
Administration, c'est à dire faire vivre le Data Warehouse
Evolutivité, que tous les autres projets décisionnels s'intègrent facilement
Le choix entre modèle dimensionnel (étoile ou flocon) et le modèle relationnel

(normalisé ou non) dépend du type du besoin décisionnel à construire.

10.1 - MODELISATION RELATIONNELLE
10.1.1 - MODELE DE DONNEES NORMALISE
Ce modèle est très classique , il est formalisé par des méthodes comme MERISE. Il est très
complet car on y trouve beaucoup de données détaillées, ce qui laisse beaucoup
d’autonomie à l’utilisateur. Par contre aucune information intéressante dans un contexte
décisionnel n’existe directement.
Les outils d’infocentre ou de " query " accèdent pour la plupart à un modèle de données
relationnel quelconque. L’analyse multidimensionnelle de ces données pourra alors se faire
directement à partir d’un résultat de requête SQL. Les possibilités d’analyse sont alors assez
sommaires (par ex., définition d’un tableau d’analyse croisée).
La seconde technique consiste à générer et à manipuler, à partir du résultat d’une requête
SQL, un hypercube, le plus souvent stocké en local. Cette manipulation pourra être faite soit
par l’outil de query lui même, soit par un outil complémentaire dédié à ce type d’analyse.
L’hypercube généré ne permettra alors d’analyser qu’une partie des données de l’entreprise,
celles correspondant au contexte de la requête.
Lorsque le modèle comprend un grand nombre de tables, les performances deviennent alors
très mauvaises et les requêtes complexes à formuler par l’utilisateur.
10.1.2 - MODELE DE DONNEES DENORMALISE
On prend le modèle normalisé et le simplifie afin qu’il réponde mieux aux exigences du
décisionnel. Cette dénormalisation n’est pas réalisée en s’appuyant sur une technique
précise mais plutôt en s’intéressant aux besoins des utilisateurs. On va ainsi créer des
redondances d’informations et des informations agrégées qui diminueront le nombre de
tables. De ce fait, on améliorera les temps de réponse et on facilitera l’accès aux
informations par les utilisateurs car le modèle lui apparaîtra comme plus lisible.

10.2 - MODELISATION DIMENSIONNELLE

La modélisation dimensionnelle dérive des concepts OLAP. Les produits utilisent une
structure de données multidimensionnelle. Elle permet l’utilisation de bases de données
relationnelles ou multidimensionnelles. L’objectif majeur d’un système décisionnel est
l’analyse de la performance. On mesure cette performance au travers des indicateurs que
l’on a retenu. Ces indicateurs vont donc être la base de la modélisation dimensionnelle et
être regroupés dans une table dite table des faits.
10.2.1 - MODELISER EN ETOILE
Dans un modèle en étoile, tous les faits sont définis dans une simple table relationnelle.
Cette table des faits va être reliée par clés primaires à d’autres tables correspondant aux
dimensions. Dans l'exemple ci-après il s'agit des PRODUITS, BRANCHE, REGION et
TEMPS. En fait, le modèle en étoile essaie de superposer une structure multidimensionnelle
au dessus d'un modèle relationnel normalisé à deux dimensions.
Le modèle en étoile simplifie le modèle logique normalisé en organisant les données de
manière optimale pour les traitements d'analyse.
10.2.2 - MODELISER EN FLOCON
La modélisation en flocon est une modélisation en étoile pour laquelle on éclate les tables
de dimensions en sous-tables selon la hiérarchie de cette dimension. Dans notre exemple, on
éclatera PRODUITS, BRANCHE, REGION et TEMPS .
Dans les deux types de modèles décrits ci-dessus, on s’aperçoit que les points
forts sont la lisibilité du modèle par l’utilisateur et la performance d’exécution.
Mais par contre on peut leur reprocher leur manque de complétude et leur
orientation rapidement très métier avec le risque d’évolution du modèle très
problématique.

PRODUITS TABLE de FAITS REGION
Couleur Bureaux de ventes
Taille PRODUIT Administration
Emballage REGION
BRANCHE
TEMPS
BRANCHE CA TEMPS
Ventes au détail Marge Semaines
Ventes en gros Unité Mois
Importation Trimestres
Exportation Année Fiscale
Tableau 24 : exemple de modèle en étoile
Concrètement, la table des faits est énorme en nombre de lignes mais le volume de chaque
ligne est limité. Les tables de dimensions sont elles beaucoup plus réduites. On accède aux
tables des dimensions par une sélection. Par exemple le CA pour les produits
électroménagers pour l’année 97 pour la région Nord. On y récupère les identifiants qui
seront les uniques points d’entrées à la table des faits pour y trouver le CA correspondant.
Une fois le modèle défini, la faculté de naviguer dans les données est un apport important
des outils OLAP (MOLAP, ROLAP).

11 - STOCKAGE DES DONNEES

Ces besoins en terme d’analyse multidimensionnelle peuvent influer d’une part sur le
modèle physique, d’autre part sur la vision que les utilisateurs ont des données. Les données
peuvent être stockées soit sous forme multidimensionnelle, soit sous forme relationnelle.
Les bases multidimensionnelles sont conçues pour optimiser l'analyse d'indicateurs (CA)
par rapport aux dimensions qui leur sont associées (temps, produit, région). Elles sont de
moins en moins exigeantes en terme de volume de stockage (technique de compression).
Les bases relationnelles sont conçues à l'origine pour le décisionnel. Elles sont plus ouvertes
et s'adaptent à de nombreuses plates formes.
11.1 - LE STOCKAGE DES DONNEES EXTERNES

Les données qui ne sont pas générées par les systèmes informatiques de l’entreprise sont
appelées des données externes et sont introduites sans formatage préalable. Elles ne sont
donc pas forcément structurées. Typiquement, les données externes qui sont dans l’entrepôt
de données arrivent dans l’entreprise par l’intermédiaire d’un poste client. Elles sont saisies
manuellement dans un tableur, ce qui laisse peu de chances d’identifier d’ou viennent les
données ainsi que leurs contenus. D’autres types de données ont fait leur apparition, il s’agit
du son et de l’image qui sont, sans compression, particulièrement volumineux.
L’entrepôt de données est le lieu idéal pour stocker des données externes et non structurées.
Si ces données ne sont pas stockées dans un endroit bien défini, on ne peut plus savoir d’où
viennent les données et on laisse la porte ouverte aux éventuelles redondances.
Les données externes peuvent être stockées au sein même de l’entrepôt de données.
Toutefois, pour diminuer le coût de stockage de ces données, on préférera les stocker
séparément, sur un support économique. A la détection des données externes, on choisira de
rediriger le stockage de ces données vers des périphériques d’archivage dédiés.
Le composant de base support du stockage est le SGBD. Outre le stockage, le SGBD doit
être spécifiquement adapté aux caractéristiques de l’accès décisionnel. Ces technologies
sont principalement liées à la parallélisation des requêtes et à diverses optimisations
proposées pour accélérer les sélections et les regroupements ensemblistes.

11.2 - OPTIMISATION PHYSIQUE
Du fait de l’importance de l’historique dans un Data Warehouse, la structuration physique

des données est également importante. Parmi les optimisations proposées par les éditeurs,
on notera les index bitmaps (Sybase , Oracle), ou la génération assistée des agrégations (HP,
Informix, Oracle, etc.) ainsi que le partitionnement des tables.
11.2.1 - AGREGATION DE TABLES
Les requêtes faisant appel à des données agrégées forment 80 % des demandes effectuées
dans un système décisionnel. La construction de tables agrégées permet d'améliorer très
nettement les temps de réponse de ces requêtes. Par exemple, on crée une table des ventes
mensuelles représentant la somme des ventes journalières par magasin et cela sur chacun
des mois.
ventes
journalières
VENTES Ventes
mensuelles
Ventes
annuelles
Tableau 25 : exemple de tables agrégées
Cette technique d'optimisation trouve ses limites lorsque les bases des données atteignent un
volume important. Autre inconvénient, l'administration est complexe.

11.2.2 - PARTITIONNEMENT DE TABLES
Un partitionnement physique des tables en plus petites unités selon le critère temps apporte
des performances stables dans le temps, des facilités pour les reprises, les indexations, les
restructurations et l’archivage. Notre table des ventes sera éclatée en 12 tables, soit une par
mois.
ventes
Ile de France
Ventes
Périgord
VENTES
Ventes
Provence
Ventes
Autres
Tableau 26 : exemple de tables partitionnées
Cette technique n'est pas simple à administrer.

11.3 - LES META-DONNEES
Les méta-données sont des données sur les données. Les méta-données représentent la
totalité des informations concernant le Data Warehouse et les processus associés.
Elles sont intégrées dans un référentiel. La méta-donnée va également servir de mémoire
pour les données externes en recueillant les informations suivantes : l’identifiant du
document, sa date d’entrée dans l’entrepôt de données, la description du document, l’origine
du document, la date d’origine du document, les mots indexés du document , la date
d’épuration, la place physique du document, sa longueur...
Dans le cadre d’outils OLAP, les méta-données sont, pour l’essentiel, la structure
multidimensionnelle elle-même. Pour un outil d’aide à la décision, elles ont pour vocation
de présenter à l’utilisateur des éléments qui lui sont familiers et qu’il pourra donc analyser
facilement, de manière intuitive.
Dans le cas d’outil Rolap, les méta-données ont pour but de transformer le
modèle de stockage relationnel en une vision utilisateur multidimensionnelle.
Le mode de stockage privilégié pour les méta-données est le serveur relationnel. Elles sont
ainsi stockées une seule fois et accessibles par l’ensemble des utilisateurs. La mise à jour de
l’environnement client peut alors s’effectuer de deux manières : soit en rapatriant à chaque
connexion le contenu des méta-données, soit en ramenant en local les méta-données et en
les mettant à jour de manière automatique lorsqu’un changement est survenu. Cette
deuxième solution est plus performante, un nouveau catalogue n’étant ramené qu’une fois
sur le poste local.

12 - LES DIFFERENTS OUTILS OLAP
OLAP sera l'outil à privilégier pour les données quantitatives si leur structuration a priori
est naturelle (cas rencontré fréquemment pour les applications financières ou
commerciales), alors que le requêteur sera idéal pour les données qualitatives et pour toute
analyse impromptue nécessitant l'autonomie de l'utilisateur (cas rencontré fréquemment
pour le marketing ou la gestion du personnel). Si les besoins sont à combiner, il faudra
choisir entre la richesse fonctionnelle apportée par plusieurs outils interfacés ou
l’homogénéité des outils intégrés.
Deux versions d'OLAP s'affrontent actuellement. Les outils MOLAP (Multidimensional

OLAP) d'une part qui s'appuient sur une base de données multidimensionnelle. Les outils
ROLAP (Relational OLAP) d'autre part, qui représente leur équivalent sur une base de
données relationnelle.
12.1 - LES OUTILS MOLAP

MOLAP est conçue exclusivement pour l'analyse multidimensionnelle, avec un mode de
stockage optimisé par rapport aux chemins d'accès prédéfinis. Ainsi, toute valeur
d'indicateur associée à l'axe temps sera pré-calculée au chargement pour toutes ses valeurs
hebdomadaires, mensuelles, etc.
Data Warehouse Moteur MOLAP Aide à la décision
Données Traitements Présentation
Stockage des Rapports

données détaillées (et Multi-Dimensionnel
agrégées)
Tableau 27 : architecture d’un produit Molap (EDS)
MOLAP agrège tout par défaut. Plus le volume de données à gérer est important, plus les
principes d'agrégations implicites proposés par MOLAP sont pénalisants dans la phase de

chargement de la base, tant en terme de performances que de volume. La limite

fréquemment évoquée pour MOLAP étant de quelques giga octets.
MOLAP surpasse ROLAP pour des fonctionnalités avancées comme la prévision ou la mise
à jour des données pour la simulation. Cependant, ces différences s'expliquent par une plus
grande maturité en faveur de MOLAP, concept qui date de près de vingt ans.
MOLAP est incompatible avec d'autres modes d'accès aux données. Si MOLAP doit
cohabiter avec d'autres techniques d'accès aux données (par requêteur, par data mining,
etc.), deux bases de données doivent cohabiter. En effet, MOLAP repose sur un moteur
spécialisé, qui stocke les données dans un format tabulaire propriétaire (cube). Pour accéder
aux données de ce cube, on ne peut pas utiliser le langage de requête standard SQL, il faut
utiliser une API spécifique.
Le marché des bases MOLAP étant plus réduit, il est plus difficile pour les éditeurs qui le
représentent d'investir sur de telles évolutions.
12.2 - LES OUTILS ROLAP
Les outils ROLAP superposent au dessus des SGBD/R bidimensionnels un modèle qui
représente les données dans un format multidimensionnel. Ces produits diminuent
sensiblement le coût lié à la mise en œuvre d'un serveur de base de données
multidimensionnelle supplémentaire. Au travers des méta-données, ils permettent de
transformer l’analyse multidimensionnelle demandée par l’utilisateur en requêtes SQL. Pour
cela, ces outils s’appuient pour la plupart sur une modélisation particulière des données,
distinguant les axes d’analyse et les faits à observer. On parlera notamment de modèle en
étoile et de modèle en flocon ou encore des techniques de définition physique d'agrégations.
Ceci oblige à définir le modèle en fonction de l’outil à utiliser et des analyses à mener mais
est un gage de performance et de cohérence lors de l’utilisation de ce type de produits.
Cette contrainte exige un travail important des équipes informatiques et donc enlève
beaucoup à l'intérêt d'utiliser un SGBD Relationnel comme support de stockage pour
l'analyse multidimensionnelle.
Data Warehouse Moteur ROLAP Aide à la décision
Données Traitements Présentation
Stockage des Génération de plans Rapports

données détaillées (et d'exécution SQL Multi-Dimensionnel
agrégées) et afin d'obtenir des
des méta-données fonctionnalités OLAP.
Tableau 28 : architecture d’un produit Rolap (EDS)
Les outils ROLAP proposent le plus souvent un composant serveur, pour optimiser les
performances lors de la navigation dans les données ou pour les calculs complexes. Avec
ROLAP, il est déconseillé d'accéder en direct à des bases de données de production pour
faire des analyses sérieuses, pour des raisons de performances.
ROLAP n'agrège rien, mais tire parti des agrégats s'ils existent. De ce fait ROLAP est plus
lourd à administrer que MOLAP, puisqu'il demande de créer explicitement certains
agrégats.
Certains éditeurs, comme Informix avec Métacube ou Oracle avec Discoverer 2000, pallient
cependant à cette faiblesse avec des outils d'administration aptes à conseiller pour une
politique d'agrégation adéquate. ROLAP est donc mieux adapté aux gros volumes.
En s'appuyant sur les bases relationnelles, référence du marché, ROLAP tire partie des
évolutions de celles-ci (adaptation aux architectures hardware sophistiquées, extensions
objets, etc.).
EDITEUR PRODUIT
ARBOR SOFTWARE ESSBASE

MOLAP ORACLE EXPRESS
DIMENSIONAL INSIGHT CROSS TARGET
INFORMIX METACUBE
ROLAP MICROSTRATEGY DSS AGENT
PLATINUM TECHNOLOGY INFOBEACON
Tableau 29 : principaux outils MOLAP et ROLAP

13 - L'ALIMENTATION DU DATA WAREHOUSE
Les données du Data Warehouse sont, pour la plupart, issues des différentes sources de
données opérationnelles de l’entreprise. Des solutions logicielles sont alors nécessaires à
leur intégration et à leur homogénéisation. Celles-ci peuvent aller de l’écriture de batchs à
l’utilisation de logiciels spécialisés dans l’extraction et la transformation d’informations
(ETI, Prism, Carleton, ...). Ces outils ont pour objet de s’assurer de la cohérence des
données du Data Warehouse et d’homogénéiser les différents formats trouvés dans les bases
de données opérationnelles. Les solutions de réplication sont souvent citées comme pouvant
répondre à ce besoin. Très liées à un éditeur et à une technologie, elles ne sont en fait
adaptées qu’à un très petit nombre de cas, où les données sont issues de sources homogènes
et n’ont pas besoin d’être transformées.
Alimenter le Data Warehouse est la difficulté technique majeure et la plus

coûteuse.
13.1 - LES PHASES DE L'ALIMENTATION

Les phases de l'alimentation du Data Warehouse sont les suivantes :
Découvrir quelles sont les données à faire migrer.

L’acquisition des données se déroule en trois phases : l’extraction, la transformation
et le chargement.
Extraction, Transformation
Logiciels spécialisés Outils clients
Batch Aide à la décision
(interrogation, analyse)
Données de production
Data Mining
(extraction de connaissances)
Modélisation, Chargement,
Stockage, Optimisation
SGBD
Architecture parallèle
Accélérateurs de requêtes
Adaptation modèles spécifiques
Tableau 30 : les besoins et les outils du Data Warehouse (EDS)

13.2 - LA DECOUVERTE DES DONNEES

La découverte des données consiste les localiser dans le système opérationnel et à prendre
les plus judicieuses.
Un mauvais choix des données a extraire va complexifier les phases suivantes de

l'alimentation
13.3 - L'EXTRACTION DES DONNEES.
L’extraction des données consiste à collecter les données utiles dans le système de
production. Pour rafraîchir la base décisionnelle, il faut identifier les données ayant évolué
afin d’extraire le minimum de données, puis planifier ces extractions afin d’éviter les
saturations du système de production.
Le processus d'alimentation doit automatiquement et périodiquement

rafraîchir les données et de préférence uniquement celles qui ont été modifiées
afin d'optimiser les performances.
On réalisera des extractions différentielles en marquant les données (date dans un fichier
LOG). Cette fonctionnalité devient importante lorsque le volume de données devient
important. L’intégrité des données est indispensable et nécessite la synchronisation des
différents processus d’extraction. Les problèmes liés à cette nécessaire synchronisation
peuvent être complexes, soit fonctionnellement, soit techniquement dans des
environnements très hétérogènes. Un autre problème est de traiter les données externes. Il
faut maintenir une surveillance du système d’information pour pouvoir les identifier et
s’assurer que ce sont les bonnes données qui sont recensées. De plus, la forme des données
externes, qui est souvent totalement anarchique accentue la difficulté. Pour être utiles, ces
données nécessitent un reformatage pour pouvoir les incorporer dans une forme exploitable
pour l’entreprise.
Enfin le troisième problème vient de l’apparition imprévisible de ces données qui les rend
difficiles à capter. En conséquence, l'outil d'extraction doit attaquer toutes sortes de sources
de données sans être perturbé et s’adapter aux futures. Pour extraire les données sources, il
y a plusieurs technologies utilisables :
des passerelles, fournies principalement par les éditeurs de bases de données. Ces
passerelles sont généralement insuffisantes car elles sont mal adaptées aux
processus de transformation complexes ;
des utilitaires de réplication, utilisables si les systèmes de production et décisionnel
sont homogènes et si la transformation à appliquer aux données est légère ;

des outils spécifiques d’extraction. Ces outils sont certainement la solution

opérationnelle au problème de l’extraction, mais leur prix relativement élevé est un
frein à leur utilisation dans les premières applications.

13.4 - LA TRANSFORMATION DES DONNEES
Le nettoyage des données est une discipline sur laquelle de nombreux éditeurs travaillent
actuellement. Outre la qualité des données qu’ils permettent d’auditer et éventuellement
d’améliorer, les outils de nettoyage permettent de supprimer les doublons dans les fichiers.
Il s'agit à ce stade d'appliquer des filtres prédéfinis sur les données afin d'attribuer des
valeurs cohérentes aux variables mal ou non renseignées ou encore d'harmoniser les formats
(date : jj/mm/aaaa). On peut également avoir à convertir les données d'un format EBCDIC
vers ASCII. Dernier exemple, des données du système opérationnel doivent être agrégées
ou calculées avant leur chargement dans la base décisionnelle.
Il faut également pouvoir associer des champs sources avec des champs cibles. Il existe
plusieurs niveaux de complexité pour ces associations (cardinalités 1-1, 1-N, N-1 , N-N),
comme par exemple :
le transfert du "nom du client" vers un champ cible

la décomposition d'une "adresse" vers les champs "numéro", "rue", "ville" ou
l'inverse.
Certains outils peuvent également réaliser des analyses lexicales des champs sources. Ils
seront donc capables de comprendre que les champs suivants signifient la même chose :
"Boulvd", "Bd" ,"Boulevard".
En complément, on trouve des outils d'audit et d'analyse pour assurer le suivi du processus
afin notamment de contrôler les rejets.
13.5 - LE CHARGEMENT DES DONNEES
Le chargement est la dernière phase de l’alimentation du Data Warehouse. C’est une phase
délicate notamment lorsque les volumes sont importants. Pour obtenir de bonnes
performances en chargement, il est impératif de maîtriser les structures du SGBD (tables et
index) associées aux données chargées afin d’optimiser au mieux ces processus. Les
techniques de parallélisation optimisent les chargements lourds. Pour les mettre en œuvre,
des utilitaires particuliers existent chez la majorité des éditeurs de bases de données.
La synchronisation des chargements de la source vers la cible

est un problème majeur.

Pour réaliser ce transfert des données, on peut utiliser le transfert de fichiers ou le transfert
de bases à bases.
Le transfert de fichiers consiste à créer au moment de l'extraction des données, un ensemble

de fichiers qui seront transférés sur le système cible afin d'alimenter la base décisionnelle.
La transformation des données s'effectuera alors soit à la constitution des fichiers, soit à leur
arrivée sur la cible.
Le transfert de base à base est plus complexe, en effet chaque donnée est extraite de la base
source, nettoyée si nécessaire, et transférée sur la base cible.
Des logiciels contrôlent souvent les phases d'extraction, de transport et de chargement. Ils
créent un enchaînement automatisé et gèrent les mises à jour mais ils sont rarement capables
de s'occuper également du nettoyage des données
Il faut donc souvent combiner les outils pour alimenter un Data Warehouse.
EDITEUR PRODUIT
EXTRACT SUITE ETI

PASSPORT CARLETON
WAREHOUSE MANAGER PRISM SOLUTIONS
VALITY TECHNOLOGIE INTEGRITY DATA REENGINEERING
Tableau 31 : principaux outils d’extraction et de nettoyage

14 - QUELQUES CHIFFRES
14.1 - LE MARCHE DU DATA WAREHOUSE
IDC estime que les investissements en Europe destinés à la mise en œuvre de Data
Warehouse étaient de 2,4 milliards de dollars en 1995. Ces coûts intègrent les budgets
internes, mais aussi l’achat d’équipements, de logiciels, ou de services.
Le tableau suivant illustre la répartition du revenu concernant le marché du Data Warehouse

telle qu’elle est identifiée par le Gartner Group. Ces chiffres sont exprimés en millions de
dollars. Comme on peut le constater ce marché est en progression annuelle de plus de 35 %.
C’est donc un très gros marché pour tous les acteurs d’un point de vue financier, mais
également par son positionnement orienté valeur ajoutée.
1994 1999 Progression annuelle

Total 1 568 6 969 34,7 %
Extraction de données 65 210 26,4 %
Administration 10 450 114,1 %
SGBDR 288 1 100 30,7 %
Matériel 1 075 3 950 29,7 %
Services 130 1 250 57,3 %
Tableau 32 : répartition du revenu du marché du Data Warehouse
Données en millions de francs (source Gartner Group)
Les chiffres suivants présentent les résultats d’une étude réalisée en 1996 par le Data
Warehousing Institute. Au niveau des déploiements, ces chiffres sont impressionnants :
plus de 40 % des sociétés ont débuté la mise en place de leur Data Warehouse et plus de
30 % ont prévu de le faire dans les 3 ans. Au niveau des volumes de données, la majorité
des systèmes en place ne dépassent pas 100 gigaoctets, mais peu sont de taille inférieure
à 5 gigaoctets.
Le marché mondial du data warehouse représentait 300 millions de dollars en 1995. Il

devrait atteindre 800 millions de dollars en 2000 (source Meta Group)
Plus de la moitié des entreprises américaines ont acheté un outil de datamining en 1997
(source IDC)

14.2 - LE RETOUR SUR INVESTISSEMENTS

Les grands cabinets d’analyse se sont penchés sur les réalisations les plus significatives
dans le domaine du Data Warehousing, en particulier sous l’angle économique. Ainsi, IDC
a analysé l’apport d’un Data Warehouse dans les entreprises. 62 organisations américaines
et européennes ont été interrogées. Voici une synthèse des résultats :
Retour sur investissement sur 3 ans : la moyenne est de 401 %, la médiane de

167 %. 90 % des entreprises consultées ont remarqué un retour sur investissement
supérieur à 40 %. Pour 13 % des entreprises, le retour sur investissement a dépassé
1000 %.
L’équilibre sur investissement (en anglais payback) est atteint en moyenne en

2,31 ans, la médiane étant de 1,67 ans. L’investissement moyen est de 2,2 millions
de dollars.
Malgré ces chiffres éloquents, il est difficile de décrire de manière générique et qualitative
les bénéfices d’un Data Warehouse : très liés à la stratégie de l’entreprise, ceux-ci
dépendent nécessairement de son secteur d’activité. Par exemple, une étude menée par
AT&T Teradata indique que dans la grande distribution, les principales zones d’opportunité
sont :
une augmentation des ventes au travers d’un marketing mieux ciblé ;

une amélioration des taux de rotation des stocks ;
la réduction des stocks de produits devenus obsolètes ;
la réduction des manques à gagner liés aux rabais, remises et ristournes ;
la diminution des coûts des produits des fournisseurs, liés à une meilleure
négociation des prix des produits.

15 - INTRODUCTION AU DATA MINING
15.1 - L'ENVIRONNEMENT DE L'ENTREPRISE

L’accroissement de la concurrence, l’individualisation des consommateurs - la
«démassification» - et la brièveté du cycle de vie des produits obligent les entreprises à non
plus simplement réagir au marché mais à l’anticiper. Elles doivent également cibler au
mieux leur clientèle afin de répondre à ses attentes. La connaissance de son métier, des
schémas de comportement de ses clients, de ses fournisseurs est essentielle à la survie de
l’entreprise, car elle lui permet d’anticiper sur l’avenir.
Aujourd’hui, les entreprises ont à leur disposition une masse de données importante. En
effet, les faibles coûts des machines en terme de stockage et de puissance ont encouragé les
sociétés à accumuler toujours plus d’informations. Cependant, alors que la quantité de
données à traiter augmente énormément - l'institut EDS estime que la quantité de données
collectées dans le monde double tous les 20 mois - le volume d’informations fournies aux
utilisateurs n’augmente lui que très peu. Ces réservoirs de connaissance doivent être
explorés afin d’en comprendre le sens et de déceler les relations entre données, des modèles
expliquant leur comportement.
Dans cette optique, la constitution d’un Data Warehouse, regroupant, sous une forme
homogène, toutes les données de l’entreprise sur une longue période, offre des perspectives
nouvelles aux utilisateurs, notamment en terme d’extraction de connaissances grâce aux
outils de Data Mining.
15.2 - PRESENTATION DU DATA MINING

Le terme de Data Mining est souvent employé pour désigner l’ensemble des outils
permettant à l’utilisateur d’accéder aux données de l’entreprise, de les analyser. Nous
restreindrons ici le terme de Data Mining aux outils ayant pour objet de générer des
informations riches à partir des données de l’entreprise, notamment des données
historiques, de découvrir des modèles implicites dans les données. Ils peuvent permettre
par exemple à un magasin de dégager des profils de client et des achats types et de prévoir
ainsi les ventes futures. Il permet d’augmenter la valeur des données contenues dans le Data
Warehouse.
Les outils d’aide à la décision, qu’ils soient relationnels ou OLAP, laissent l’initiative à
l’utilisateur, qui choisit les éléments qu’il veut observer ou analyser. Au contraire, dans le
cas du Data Mining, le système a l’initiative et découvre lui-même les associations entre
données, sans que l’utilisateur ait à lui dire de rechercher plutôt dans telle ou telle direction
ou à poser des hypothèses. Il est alors possible de prédire l’avenir, par exemple le
comportement d’un client, et de détecter, dans le passé, les données inusuelles,
exceptionnelles.

Ces outils ne sont plus destinés aux seuls experts statisticiens mais doivent pouvoir être
employés par des utilisateurs connaissant leur métier et voulant l’analyser, l’explorer. Seul
un utilisateur connaissant le métier peut déterminer si les modèles, les règles, les tendances
trouvées par l’outil sont pertinentes, intéressantes et utiles à l’entreprise. Ces utilisateurs
n’ont donc pas obligatoirement un bagage statistique important, du moins est-ce l’objectif
visé. L’outil doit donc soit être ergonomique, facile à utiliser et rendant transparentes toutes
les formules mathématiques et termes techniques utilisés, soit permettre de construire une
application «clé en main», rendant à l’utilisateur transparentes toutes les techniques
utilisées.
On pourrait définir le DATA MINING comme une démarche ayant pour objet de découvrir
des relations et des faits, à la fois nouveaux et significatifs, sur de grands ensembles de
données.
On devrait ajouter que la pertinence et l'intérêt du data mining sont conditionnés par les
enjeux attachés à la démarche entreprise, qui doit être guidée par des objectifs directeurs
clairement explicités ("améliorer la performance commerciale", "mieux cibler les
prospects", "fidéliser la clientèle", "mieux comprendre les performances de production"...).
Le succès du concept de DATA WAREHOUSE et le nombre croissant de bases de données

décisionnelles disponibles dans les entreprises, dynamise fortement l'offre data mining.
Cette offre tend à se démocratiser, en cherchant à rendre accessible au plus grand nombre,
les divers outils du data mining. Pour cela, elle adopte de plus en plus un caractère
"moderne" et "convivial", parfois "boîte noire" pour ne pas dire "boîte magique".
Pour qui connaît depuis longtemps les outils de statistique et d'analyse de données, ce
phénomène peut paraître curieux. On sait depuis longtemps procéder à des classifications
automatiques, construire et exploiter des modèles performants, rechercher des corrélations
entre variables... On connaît même dans bien des cas l'incertitude attachée aux prévisions
réalisées, ce qui permet de relativiser ou pondérer les prises de décisions correspondantes
(ce dernier point est aussi essentiel que de déterminer les décisions elles-mêmes...).
On peut cependant faire aux méthodes "traditionnelles" le reproche de ne pas avoir été
vulgarisées. Le jargon qu'elles utilisent, les outils mathématiques (mal connus du grand
public) sur lesquels elles s'appuient, les hypothèses préalables et validations requises pour
une mise en œuvre rigoureuse... sont autant de freins à un usage répandu de ces méthodes.
Si des outils plus "récents", comme les réseaux de neurones ou les arbres de décisions,
connaissent un certain succès, ils le doivent à leurs performances (dans certains domaines),
mais probablement aussi à leurs qualités de convivialité, liées à une terminologie souvent
plus accessible, à leur présentation résolument "pratique" et à l'occultation des mécanismes
et algorithmes internes qui les régissent.

Pour autant, les problèmes de mise en œuvre, de compréhension des phénomènes et de

validation des résultats subsistent. Ils sont même dans une certaine mesure amplifiés par la
simplicité apparente de ces outils, qui n'incite pas toujours à la rigueur.
Une synthèse positive et optimiste des différents outils et courants pourrait consister à
améliorer la convivialité des méthodes traditionnelles et à proposer un cadre
méthodologique rendant plus fiable et rigoureuse l'utilisation des outils plus récents.
15.3 - DEFINITION
Le terme de Data Mining signifie littéralement forage de données. Comme dans tout forage,
son but est de pouvoir extraire un élément : la connaissance. Ces concepts s’appuient sur le
constat qu’il existe au sein de chaque entreprise des informations cachées dans le gisement
de données. Ils permettent, grâce à un certain nombre de techniques spécifiques, de faire
apparaître des connaissances.
Nous appellerons Data Mining l'ensemble des techniques qui permettent de

transformer les données en connaissances.
L'exploration se fait sur l'initiative du système, par un utilisateur métier, et son but est de
remplir l'une des tâches suivantes : classification, estimation, prédiction, regroupement par
similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure,
l'optimisation.
15.4 - LE DATA MINING ET LA RECHERCHE OPERATIONNELLE
La recherche opérationnelle n'est pas assimilée aux techniques de Data mining. Son objectif
est l'optimisation et la recherche prouvée de la meilleure solution, ce qui n'est pas le cas du
Data mining :
son champ d'application est plus large (voir pages 148 à 152),
on ne recherche pas la meilleure solution prouvée mais à faire le mieux possible,
enfin un outil de Data mining appliqué à un même ensemble de données ne donne
pas toujours les mêmes résultats, contrairement à la recherche opérationnelle.

15.5 - STATISTIQUES ET DATA MINING
On pourrait croire que les techniques de data mining viennent en remplacement des
statistiques. En fait, il n'en est rien et elles sont omniprésentes. On les utilise :
pour faire une analyse préalable,

pour estimer ou alimenter les valeurs manquantes,
pendant le processus pour évaluer la qualité des estimations,
après le processus pour mesurer les actions entreprises et faire un bilan.
Par ailleurs, certaines techniques statistiques récentes (travaux de BENZECRI, analyse en

composantes principales, analyse factorielle des correspondances, …) peuvent être
apparentées aux techniques de data mining.
Statistiques et data mining sont tout à fait complémentaires.

16 - LA RECHERCHE DE CONNAISSANCES
16.1 - LES STATISTIQUES

Les statistiques sont à la base de tout raisonnement sur les données. Elles permettent de
synthétiser un grand nombre de valeurs pour une variable grâce à un nombre très réduit
d’informations. Pour chaque variable, on va ainsi rechercher au moins deux indicateurs : un
pour mesurer la tendance centrale, un pour mesurer la dispersion.
16.1.1 - INDICATEURS DE TENDANCE CENTRALE
C’est en général le premier critère d'évaluation d'une série statistique. Le plus couramment
1 n
utilisé est la moyenne arithmétique : × ∑ (xi ni ) (N représente l’effectif total, xi le centre
N i =1
de la classe ou sa valeur, ni l’effectif de la classe), mais on lui associe ou préfère parfois le
mode (valeur la plus fréquemment trouvée) ou la médiane (valeur du représentant de la
moitié de l’effectif). La médiane présente l’avantage de ne pas être sensible aux valeurs
exceptionnelles (contrairement à la moyenne).
16.1.2 - INDICATEURS DE DISPERSION
Les indicateurs de tendance centrale donnent une première indication de la population à

étudier mais il est intéressant de savoir comment se répartissent les individus autour de cette
moyenne. En effet, si deux élèves obtiennent les notes suivantes :
Elève A : 9 - 10 - 10 - 10 - 10 - 11 Elève B : 0 - 0 - 0 - 20 - 20 - 20
Ces deux élèves auront 10 de moyenne mais on voit nettement que l’élève A obtient des
notes autour de la moyenne alors que l’élève B en est très éloigné. Pour exprimer ceci, les
statisticiens disposent de nombreux indicateurs permettant de mesurer la dispersion :
l'amplitude, ou dimension, ou étendue de la distribution : Valeur sup - Valeur inf

∑ x −x
i
l'écart absolu moyen des valeurs à la moyenne de la distribution : n
la distance interquartile ou interdécile de la distribution : écart entre l’individu
représentant 25 % (ou 10 %) et celui représentant 75 % (ou 90%) de la population.
L’écart type ( σ ) défini ainsi :

2
= ∑ ( x − x)
2
i
σ n
(la majorité des individus est entre moyenne - 2 σ et moyenne + 2 σ).
Ces indicateurs sont utilisés pour évaluer des valeurs manquantes, mettre en
évidence les valeurs exceptionnelles et donner une première synthèse des
données.
16.1.3 - RELATIONS ENTRE VARIABLES
Très vite, les besoins des décideurs ont amené les statisticiens à rechercher des liens entre
plusieurs variables ou plusieurs populations. Ils ont donc créé de nouveaux indicateurs
comme le khi2, la covariance ou le coefficient de corrélation. La corrélation entre les
variables ne recouvre pas que la causalité; elle peut s’expliquer de plusieurs manières :
La causalité : on observe qu’une variation de A entraîne une variation de B. Il

existe un vrai lien entre A et B.
Le hasard : une variation de A entraîne une variation de B mais celle-ci est

uniquement due au hasard.
La réponse commune : une variation de C entraîne une variation de A et B.
La confusion : la variation de A et C entraîne la variation de B.

Tableau 33 : explications d'un fort taux de corrélation.
Lorsque le coefficient de corrélation est significatif, il y a souvent confusion entre ces

différentes possibilités, surtout entre causalité et hasard.
D’autres techniques : régressions simples ou multiples (linéaires ou non), ajustements vers

des lois statistiques (loi normale, binomiale, hypergéométrique, de Poisson, ...) permettent
de modéliser les séries, et facilitent les estimations. Elles ne seront pas développées dans cet
ouvrage.
Ces techniques statistiques permettent de savoir s’il existe une relation entre
plusieurs variables, de faire des prévisions ou estimations.
Le but de ce type d’analyse est souvent de rechercher des liens de causalité
La recherche de connaissances par l’utilisation de méthodes statistiques est souvent limitée

car on ne peut étudier simultanément que quelques variables (une à deux). Les problèmes
sont en général plus complexes et mettent en œuvre plusieurs dizaines de variables. Pour
répondre à ces besoins, il a fallu créer de nouveaux algorithmes, parfois issus de la
recherche opérationnelle, alliant la recherche intelligente et les statistiques.

16.2 - LES SCHEMAS D’INFERENCE

Les outils de data mining ne sont pas destinés à un informaticien ou un statisticien mais à
l’utilisateur ou au décisionnaire. Seul ce dernier saura analyser avec pertinence les
informations retournées par le système. Pour mieux comprendre le fonctionnement de ces
processus, voici les principales techniques de raisonnement mises en œuvre.
La recherche de connaissances et d’informations repose sur les schémas d’inférence

formalisés par C. S. PIERCE en 1903. Ce dernier a distingué trois types de raisonnements :
l’abduction, la déduction et l’induction.
16.2.1 - L’ABDUCTION
Pour mieux exprimer ce qu’est l’abduction, le plus simple est d’en présenter un exemple :
Toutes les voitures ont 4 roues

La Peugeot 106 a 4 roues
La Peugeot 106 est une voiture
Cette technique est notamment utilisée dans les outils d’aide au diagnostic médical pour
découvrir la maladie la plus probable depuis une liste de symptômes. Il faut cependant être
très vigilant avec ce type de raisonnement car il peut produire des résultats aberrants ou
triviaux :
Toutes les voitures ont un moteur, l’Airbus 320 a un moteur l’Airbus 320 est une voiture.
Pour éviter ce type de comportement, il suffit d’avoir un ensemble descriptif (ici : 4 roues)
suffisamment riche. Il aurait suffit de préciser : toutes les voitures ont 4 roues, un moteur,
un volant, de 3 à 5 portes, sont inscrites sur les registres des mines, etc... pour diminuer
considérablement le risque d’erreurs.
Tous les possesseurs de la carte jeune ont moins de 25 ans.
Cette information est certes vraie mais risque de ne présenter aucun intérêt.

16.2.2 - LA DEDUCTION
C’est le type de raisonnement le plus utilisé et le plus familier. Son atout majeur est qu’il ne
laisse pas de place au doute. Exemple :
La Peugeot 106 est une voiture

Toutes les voitures ont 4 roues
La Peugeot 106 a 4 roues
16.2.3 - L’INDUCTION
C’est la technique la plus communément utilisée par le data mining. Elle consiste à tirer des
conclusions à partir d’une série de faits. Exemples :
Exemple 1 Exemple 2
La Clio a 4 roues La Clio a 4 roues
La Peugeot 106 a 4 roues La Peugeot 106 a 4 roues
La Laguna a 4 roues La Laguna a 4 roues
La Corsa a 4 roues La Corsa a 4 roues
Un patin à roulettes a 4 roues
Toutes les voitures ont 4 roues (100 %) Les voitures ont 4 roues (80 %)
Tableau 34 : exemples d'induction.
La certitude n’est pas absolue et sera donc associée à une probabilité. Plus les faits
corroborant l’hypothèse sont nombreux, plus la probabilité que la conclusion soit exacte est
forte.
La recherche d’informations se fait généralement par des mécanismes

d’induction.
La déduction est plutôt utilisée pour vérifier la cohérence des informations.

17 - LES TACHES DU DATA MINING

Contrairement aux idées reçues, le data mining n’est pas le remède miracle capable de
résoudre toutes les difficultés ou besoins de l’entreprise. Cependant, une multitude de
problèmes d’ordre intellectuel, économique ou commercial peuvent être regroupés, dans
leur formalisation, dans l’une des tâches suivantes :
Classification,
Estimation,
Prédiction,
Groupement par similitudes,
Segmentation (ou clusterisation),
Description,
Optimisation.
Afin de lever toute ambiguïté sur des termes qui peuvent paraître similaires, il semble
raisonnable de les définir.
17.1 - LA CLASSIFICATION
La classification se fait naturellement depuis déjà bien longtemps pour comprendre et
communiquer notre vision du monde (par exemple les espèces animales, minérales ou
végétales).
« La classification consiste à examiner des caractéristiques d’un élément nouvellement

présenté afin de l’affecter à une classe d’un ensemble prédéfini. » [BERRY97]
Dans le cadre informatique, les éléments sont représentés par un enregistrement et le résultat
de la classification viendra alimenter un champ supplémentaire.
La classification permet de créer des classes d’individus (terme à prendre dans son
acception statistique). Celles-ci sont discrètes : homme / femme, oui / non, rouge / vert /
bleu, ...
Les techniques les plus appropriées à la classification sont :
les arbres de décision,

le raisonnement basé sur la mémoire,
éventuellement l’analyse des liens.

17.2 - L’ESTIMATION
Contrairement à la classification, le résultat d’une estimation permet d’obtenir une variable
continue. Celle-ci est obtenue par une ou plusieurs fonctions combinant les données en
entrée. Le résultat d’une estimation permet de procéder aux classifications grâce à un
barème. Par exemple, on peut estimer le revenu d’un ménage selon divers critères (type de
véhicule et nombre, profession ou catégorie socioprofessionnelle, type d’habitation, etc ...).
Il sera ensuite possible de définir des tranches de revenus pour classifier les individus.
Un des intérêts de l’estimation est de pouvoir ordonner les résultats pour ne retenir si on le
désire que les n meilleures valeurs. Cette technique sera souvent utilisée en marketing,
combinée à d’autres, pour proposer des offres aux meilleurs clients potentiels. Enfin, il est
facile de mesurer la position d’un élément dans sa classe si celui ci a été estimé, ce qui peut
être particulièrement important pour les cas limitrophes.
La technique la plus appropriée à l’estimation est :
les réseaux de neurones.
17.3 - LA PREDICTION
La prédiction ressemble à la classification et à l’estimation mais dans une échelle temporelle
différente. Tout comme les tâches précédentes, elle s’appuie sur le passé et le présent mais
son résultat se situe dans un futur généralement précisé. La seule méthode pour mesurer la
qualité de la prédiction est d’attendre !
Les techniques les plus appropriées à la prédiction sont :
L’analyse du panier de la ménagère

Le raisonnement basé sur la mémoire
Les arbres de décision
les réseaux de neurones
17.4 - LE REGROUPEMENT PAR SIMILITUDES

Le regroupement par similitudes consiste à grouper les éléments qui vont naturellement
ensembles.
La technique la plus appropriée au regroupement par similitudes est :

17.5 - L’ANALYSE DES CLUSTERS

L’analyse des clusters consiste à segmenter une population hétérogène en sous-populations
homogènes. Contrairement à la classification, les sous populations ne sont pas préétablies.
La technique la plus appropriée à la clusterisation est :
L’analyse des clusters
17.6 - LA DESCRIPTION
C’est souvent l’une des premières tâches demandées à un outil de data mining. On lui
demande de décrire les données d’une base complexe. Cela engendre souvent une
exploitation supplémentaire en vue de fournir des explications.
La technique la plus appropriée à la description est :
17.7 - L’OPTIMISATION
Pour résoudre de nombreux problèmes, il est courant pour chaque solution potentielle d’y
associer une fonction d’évaluation. Le but de l’optimisation est de maximiser ou minimiser
cette fonction. Quelques spécialistes considèrent que ce type de problème ne relève pas du
data mining.
La technique la plus appropriée à l’optimisation est :
Les réseaux de neurones

17.8 - ILLUSTRATION DES TACHES DU DATA MINING

Prenons une base de données simple de suivi des militaires, du point de vue carrière et
affectations, établie selon le modèle suivant :
Figure 17 : modèle informatique de la base de données militaires
Nous retrouvons les fichiers militaires, affectations, garnisons, et carrières. Sur cet exemple,
voyons comment utiliser chaque tâche du data mining. Nous supposons que le travail de
préparation des données est fait.
La classification
Déterminer le grade en fonction du sexe, de l'âge, l'ancienneté, le salaire et les affectations.
Déterminer le sexe en fonction de l'âge, l'ancienneté, le salaire et les affectations.
L’estimation
L'estimation se fait sur des variables continues :
Estimer l'âge en fonction du grade, sexe, ancienneté et affectations

Estimer le salaire en fonction de l'âge, sexe, ancienneté et affectations
La prédiction
Dans cet exemple, nous pouvons prédire par exemple quelle sera la prochaine affectation
d'un militaire.

Le regroupement par similitudes

En utilisant cette technique, nous pouvons déterminer des règles de type : le militaire qui est
sergent entre 25 et 30 ans sera lieutenant colonel entre 45 et 50 ans (fiabilité de n %).
La segmentation (ou clusterisation)

Nous pouvons essayer de segmenter les militaires en fonction de leurs parcours (suivi de la
carrière) et affectations.
La description
Dans cet exemple, la description se fera surtout autour des indicateurs statistiques
traditionnels : âge moyen, pourcentage de femmes, salaire moyen
L’optimisation
L'exemple qui suit est fictif :
Compte tenu des effectifs nécessaires dans chaque grade pour chaque garnison et
connaissant les contraintes: on ne peut revenir dans une garnison qu'au moins 5 ans après en
être sorti, un militaire doit changer d'affectation au moins tous les 3 ans, … comment
affecter au mieux les militaires l'année prochaine ?
17.9 - SYNTHESE
Les sept tâches du data mining sont :
La classification,
L’estimation,
La prédiction,
Le regroupement par similitudes,
La segmentation (ou clusterisation),
La description,
L’optimisation.

18 - LE CERCLE VERTUEUX
On ne met pas en œuvre une technique de data mining pour faire une simple exploration. Il
faut l'inscrire dans un contexte plus global, appelé le cercle vertueux. Celui-ci est composé
de quatre étapes :
Identifier le domaine d'étude

Préparer les données
Agir sur la base de données
Evaluer les actions
La première étape consiste à identifier le domaine d'étude. Il faut répondre aux questions :
de quoi parlons nous et que voulons nous faire ? A ce stade, on définit un objectif général.
Lorsque le domaine est délimité, il faut recenser les données relatives au domaine, puis les
regrouper pour en faciliter l'exploration. Nous parlons de regroupement logique, ce qui
inclus le client / serveur, même si ce n'est pas recommandé. La troisième étape consiste à
mettre en œuvre une ou plusieurs techniques de data mining pour une première analyse.
Après évaluation et étude des résultats, des actions sont mises en œuvre. La dernière étape
consistera à évaluer ces actions, et par-là même la performance du data mining, voire le
retour sur investissements. L'achèvement du premier cycle débouche souvent sur
l'expression de nouveaux objectifs affinés, ce qui nous ramène à la première étape …
Tableau 35 : le cercle vertueux du data mining

19 - METHODOLOGIE DE DATA MINING

Le data mining s’inscrit dans une approche plus large de recherche en 4 étapes :
Poser et formaliser le problème (ou l’étude)

le data mining
mise en œuvre de solutions ou d’actions
évaluation
Pour mener à bien une action de data mining, il existe deux possibilités méthodologiques :
le test d’hypothèse et/ou la découverte de connaissances (dirigée ou non).
19.1 - LE TEST D’HYPOTHESES

Il s'agit d'une approche descendante : cette technique consiste à émettre des hypothèses, soit
issues d’une analyse préalable de type statistique, soit en fonction de l’expérience ou
l’imagination de chacun. Chaque hypothèse doit être validée par les données existantes,
éventuellement par des études menées en parallèle.
19.1.1 - PROCESSUS DU TEST D'HYPOTHESE
La méthode du test d'hypothèse se déroule ainsi :
Générer de bonnes idées

Déterminer quelles données permettront de tester ces idées
Localiser les données
Préparer les données pour l'analyse
Construire des modèles informatiques
Evaluer les modèles informatiques
19.1.1.1 - GENERER DE BONNES IDEES
C'est le travail de base du processus. Il est souhaitable de réunir les différents représentants
des secteurs de l'entreprise, ce qui permet à chacun de réagir aux idées des autres en
fonction de son niveau d'expertise. Généralement les problèmes ne sont vus que du seul
point de vue d'un indicateur qui représente souvent un objectif à atteindre. On demandera
par exemple à un commercial d'atteindre un certain volume de vente ou de chiffre d'affaires
mais plus rarement de répondre à des questions comme "quelle est la durée de vie active des
clients ?" ou "quelle est la dépense globale des clients au cours de leur relation avec
l'entreprise et comment évolue-t-elle ?", etc... Le travail en groupes doit permettre à
l'entreprise de se poser de nouvelles questions pour générer de bonnes idées.
19.1.1.2 - DETERMINER LES DONNEES POUR TESTER LES IDEES
Lorsque les hypothèses sont posées, il faut déterminer quelles données vont permettre de
valider ou d'invalider ces hypothèses. Par exemple, une banque souhaitait savoir les motifs
de clôture des comptes. Une réunion de brainstorming a permis de déterminer des causes
possibles de clôture de compte, non liées à la politique de la banque (ce qui exclut les
clients mécontents après une hausse de tarifs, ...) :
Cause Symptôme
Le client est mort. Les transactions cessent.
Le client a déménagé dans une ville où la Utilisation accrue des distributeurs

banque n'a pas d'agence. automatiques et localisation différente de ces
distributeurs.
Le client s'est marié; le conjoint restant fidèle Réduction du solde et du nombre des
à son ancienne banque ils y ont maintenant transactions, demande de changement de
un compte joint. nom (si c'est une cliente).
Le client a changé de travail et n'est plus Arrêt des versements mensuels.

payé par virement.
Le client a changé de travail et il existe une La plupart des transactions au distributeur

agence d'une autre banque très proche de son automatique se passent à un autre endroit,
bureau. qui appartient à une banque différente.
Tableau 36 : causes possibles de clôture d'un compte bancaire.
A partir de cette analyse, il est devenu aisé de déterminer les données utiles pour permettre
de valider chacune des hypothèses.
19.1.1.3 - LOCALISER LES DONNEES
Les techniques de data mining sont consommatrices de gros volumes de données.

Idéalement, celles-ci se trouvent toutes présentes dans l'entreprise. Ceci est rarement le cas
car il est fréquent d'avoir recours à des données externes : indices socio-démographiques,
enquêtes de consommation, indicateurs économiques, etc... De plus, les données présentes
dans l'entreprise sont souvent disséminées dans les divers systèmes existants : applications

bureautique, données issues de la production, données provenant de systèmes de mesure ou

autres systèmes électroniques, ...
19.1.1.4 - PREPARER LES DONNEES POUR L'ANALYSE
Les données brutes sont rarement directement exploitables pour une opération de data
mining. Elles sont souvent issues de systèmes dont la vocation est la production et
nécessitent des adaptations, voire des transformations : codages, calculs, création de
données combinées calculées. Plusieurs problèmes se posent :
Définir le bon niveau de résumé,

Les architectures informatiques incompatibles,
Le codage incohérent des données,
Les données textuelles,
Les valeurs manquantes.
19.1.1.4.1 - Définir le bon niveau de résumé
Quel est le bon niveau de détail ? Il faut définir le bon niveau de détail en fonction du
problème posé. Les données non résumées risquent d'être trop fines et occuper un espace
disque important. Le risque est alors grand pour que l'on utilise une fonction de
regroupement (fonction GROUP BY en SQL) pour faciliter l'exploitation. Dans ce cas, il est
préférable de résumer dès le départ les données mais le risque est de trop résumer et de
manquer dès le départ une notion qui pourrait être importante pour l'analyse.
Le codage permet également de résumer un ou plusieurs champs. Par exemple, sur une
étude démographique, il est intéressant de codifier l'adresse pour faire ressortir le
département (ce qui permet de codifier la région), la zone d'habitation (urbaine, périurbaine,
campagne, …), etc…
19.1.1.4.2 - Les architectures informatiques incompatibles
Les ordinateurs ne possèdent pas tous le même système d'exploitation ni système de codage
(EBCDIC, ASCII, …).De même, les formats de données numériques peuvent être différents
d'un système à l'autre. Il sera souvent préférable d'importer les données dans un système
unique (le data warehouse), ce qui évite ce type de problème. Sinon, il faut prévoir des
outils pour faire le transcodage.
19.1.1.4.3 - Le codage incohérent des données
Ce type de problème se trouve accentué lorsque les données proviennent de sources

multiples. Il faudra toujours, surtout si les données sont hétérogènes, s'assurer qu'un même
code est interprété de la même manière. Dans le cas contraire, il faut homogénéiser les
codages soit en créant un nouveau codage, soit en utilisant l'un de ceux utilisés comme
référence.

19.1.1.4.4 - Les données textuelles
Les données textuelles (champs au format texte) posent beaucoup de problèmes et sont
souvent non utilisées. Il est très difficile d'extraire d'un champ texte une donnée, sauf ci le
champ correspond à un codage connu ou s'il est très contraint (code postal, numéro de
sécurité sociale ou de plaque d'immatriculation de véhicule,…). La méthode de codage la
plus simple et la plus utilisée consiste à créer un tableau de transcodage avec un champ
contenant une valeur possible et le résultat codé. On pourra ainsi transformer les différentes
orthographes possibles d'une commune (avec toutes les formes d'abréviations imaginables)
pour ressortir le code postal ou rechercher dans un texte d'adresse les mots : Angleterre,
Ecosse, Irlande, Pays de galles, … et y associer un code pays. Il faut noter cependant que
depuis quelques mois apparaissent des outils de text mining qui facilitent ces tâches.
19.1.1.4.5 - Les valeurs manquantes
Ce type de problème est fréquent et bien connu des enquêteurs et statisticiens : que faire des
valeurs manquantes ? Il existe quatre possibilités :
supprimer la colonne,
ne pas prendre en compte la ligne,
codifier la donnée pour la signaler manquante,
évaluer cette valeur.
Les deux premières solutions sont à éviter car elles nous privent de données qui pourraient
être très importantes.
Repérer les données manquantes est une possibilité intéressante car ces absences peuvent
être significatives d'une population ou d'un comportement.
Habituellement la dernière solution est retenue. De nombreuses techniques statistiques et de
data mining permettent de faire des estimations fiables.
Quoi qu'il en soit, les valeurs manquantes méritent une attention particulière, surtout si elles
sont nombreuses. Dans ce dernier cas, les estimations ne seront pas fiables et les résultats de
l'analyse par les techniques de data mining seront faussées !
19.1.1.5 - CONSTRUIRE DES MODELES INFORMATIQUES
Si l'on adopte la démarche du test d'hypothèses, on commence avec un modèle mental. Il va

falloir formaliser le problème en vue de le transformer en modèles informatiques. Une
hypothèse comme "les familles avec des enfants en âge de fréquenter l'enseignement
supérieur répondent plus favorablement à tel type d'offre" doit être traduit dans un modèle
informatique avant d'être testée sur des données réelles.

19.1.1.6 - EVALUER LES MODELES INFORMATIQUES
C'est la dernière étape : il s'agit d'appliquer le modèle informatique aux données réelles pour
voir comment les hypothèses se vérifient. Même si nous posons une question qui paraît
demander la réponse oui ou non comme "est-ce que les femmes répondent mieux à telle
offre commerciale ?", les résultats devront être évalués et interprétés : comment quantifier la
différence ? Est-elle significative ? Si oui, faut-il concevoir deux offres différentes ? Les
hommes représentent-ils une part importante pour ce marché ?
L'exploitation correcte des résultats de l'exploitation des données demande en même temps
des connaissances analytiques et spécifiques au domaine. Si personne ne possède toutes ces
connaissances à la fois, il faudra une coopération entre les divers spécialistes.
19.1.2 - SYNTHESE
Pour mettre en œuvre une méthode de data mining dans le cadre du test d'hypothèse, la
méthodologie est la suivante :
Générer de bonnes idées

Déterminer quelles données permettront de tester ces idées
Localiser les données
Préparer les données pour l'analyse.
Construire des modèles informatiques
Evaluer les modèles informatiques

19.2 - LA DECOUVERTE DE CONNAISSANCES

Il s'agit d'une approche ascendante : cette technique consiste à partir des données pour tenter
d'en extraire une information pertinente et inconnue. La découverte de connaissances est
l’approche du data mining la plus significative et la plus souvent mise en avant. Les
logiciels de data mining vont utiliser les techniques statistiques et de raisonnement
examinées précédemment, en y associant d’autres techniques (présentées plus loin). On
distinguera la découverte de connaissances dirigée et non dirigée.
La découverte de connaissances non dirigée sert à reconnaître les relations

exprimées par les données tandis que la découverte dirigée permet d'expliquer
ces relations une fois qu'elles ont été trouvées.
19.2.1 - LA DECOUVERTE DE CONNAISSANCES NON DIRIGEE
Cette technique est également appelée apprentissage sans supervision. Historiquement,

c’était la vocation des logiciels de data mining. On fournit au logiciel une base de données
et celui-ci recherche des structures significatives et retourne un ensemble de connaissances.
Celles-ci sont généralement exprimées sous forme de règles, du type :
Si achat de riz ET de vin blanc, alors achat de poisson
A chaque règle est associé un indicateur de confiance (ici : nombre de personnes ayant
acheté riz, vin blanc et poisson divisé par le nombre de personnes ayant acheté riz et vin
blanc) qui permet de quantifier la fiabilité de la règle. Une valeur de 0.84 signifie que 84 %
des gens qui ont acheté du riz et du vin blanc ont acheté du poisson.
Ce critère n’est pas suffisant car il faut en outre que l’effectif soit significatif. En effet, si
une règle ne concerne qu’un ou deux individus même avec 100 % de confiance, elle devra
être rejetée car non suffisamment significative.
Les règles d’association peuvent également se dérouler dans le temps : telle action à un
instant t entraînera tel résultat à un autre instant. Il faut alors posséder suffisamment de
données historisées pour avoir une bonne fiabilité des résultats. La technique qui consiste à
prévoir le comportement d’une variable dans le temps en fonction du passé s’appelle le
« forecasting ».

19.2.1.1 - METHODOLOGIE DE DECOUVERTE NON DIRIGEE
La découverte de connaissances non dirigée se déroule en suivant les étapes suivantes :
Identifier les sources de données disponibles

Construire et instruire le programme informatique
Evaluer le modèle informatique
Appliquer le modèle informatique à de nouvelles données
Identifier les cibles potentielles pour la découverte de connaissances dirigée
Générer de nouvelles hypothèses à tester
19.2.1.1.1 - Identifier les sources de données disponibles
Les processus de découvertes de connaissances sont basés sur le fait que la connaissance ou
la réponse aux questions que l'on se pose se trouve dans les données. Par conséquent, la
qualité des données est la première exigence de ce type d'analyse.
L'idéal est de travailler à partir des données archivées dans l'entreprise. Mais celles-ci sont
prévues généralement pour la production, avec des formats adaptés aux meilleurs temps de
réponse, voire même conservés sur des bandes magnétiques.
Il va donc falloir identifier les données, les localiser, identifier les formats et codages, … Un
travail organisationnel et logistique important est nécessaire pour disposer des données sous
une forme utile en vue de la découverte de connaissances.
19.2.1.1.2 - Préparer les données pour l'analyse
Après le travail de repérage et d'identification décrit dans l'étape précédente, il faut préparer
les données pour l'analyse. Cette étape est de loin la plus importante car la qualité des
résultats obtenus est très fortement liée à la qualité de cette préparation.
On distinguera plusieurs étapes dans cette préparation :
regrouper les données et les transformer

distribuer les données

19.2.1.1.2.1 - Regrouper les données et les transformer
C'est la première étape qui consiste à regrouper, rapatrier, transcoder, transformer les
données. Il faut faire face aux incompatibilités entre les différents systèmes informatiques
de l'entreprise, importer les données externes, regrouper l'ensemble dans un format propice
à l'exploitation par une application de data mining.
Parfois, on souhaitera agréger les données ou les regrouper.
Enfin, il est souvent utile de rajouter des champs supplémentaires, issus de résultats de
calculs ou transformations depuis des champs existants. Ceci est particulièrement vrai si l'on
cherche des relations entre champs ou pour suivre des évolutions dans le temps. A titre
d'exemple, on pourrait citer :
Index d'obésité = taille ² / poids

Ecart de solde = solde précédent - solde actuel
Densité = population / surface
Taux de transport = nombre de passagers * nombre de kilomètres
Ces travaux sont prévus voire automatisés dans le cadre de la mise en œuvre d'un data
warehouse.
19.2.1.1.2.2 - Distribuer les données
Une fois les données obtenues, il va falloir les distribuer en trois parties :
Ensemble d'apprentissage
Ensemble de test
Ensemble d'évaluation
Ces trois ensembles devront être distincts (n'avoir aucun enregistrement en commun).
L'ensemble d'apprentissage est utilisé pour construire le modèle initial. C'est depuis cet
ensemble que le système va calculer ses différents paramètres.
Une fois les paramètres calculés, il faut vérifier comment ils se comportent sur l'ensemble
de test. Celui-ci va permettre d'ajuster les valeurs trouvées à l'étape précédente et les rendre
moins sensibles à l'ensemble d'apprentissage.
Enfin, les paramètres seront testés sur l'ensemble d'évaluation. Si les résultats obtenus sont
proches de ceux attendus, on pourra alors valider le système. Dans le cas contraire, il faudra
analyser les raisons de cette différence. Pour mesurer la validité des résultats obtenus, on
utilisera les outils statistiques traditionnels (le khi2 par exemple).
Comment construire ces ensembles ?
Il n'existe pas de réponse simple à cette question. Dans certains cas, on utilisera les
méthodes statistiques d'échantillonnage pour constituer ces ensembles. Cependant, surtout si
l'on se trouve dans un contexte de data warehouse, il est préférable de prendre de grands
volumes (au moins 10 000 enregistrements) pour être sûr que statistiquement l'ensemble est
représentatif (loi de la probabilité forte des grands nombres).
Il faut cependant respecter quelques règles :
Dans une analyse statistique traditionnelle, il est fréquent de choisir les variables à analyser
pour tenter par exemple de déterminer la corrélation de l'une par rapport à une autre. De
même, on supprime souvent certains champs trop complexes ou insuffisamment alimentés
(valeurs absentes). Dans une approche de data mining, il est préférable de soumettre
l'ensemble des données et laisser l'outil déterminer lui-même les données utiles car les
champs absents ou complexes peuvent déboucher sur des connaissances importantes !
Enfin, il faut être vigilant dans la constitution des ensembles. Il faut se rappeler en
permanence que leur but n'est pas d'être représentatifs de la population d'origine mais qu'il
s'agit d'un ensemble d'apprentissage. C'est à partir de ces données que le système va se créer
ses règles et paramètres. Il est donc souvent utile de surdimensionner certains ensembles
utiles à l'apprentissage. Par exemple, une entreprise pourrait s'intéresser aux clients
susceptibles de répondre favorablement à une offre commerciale. Supposons que dans les
données historiques de l'entreprise seul 1 % des clients aient répondu favorablement à cette
offre. Il sera souhaitable d'augmenter significativement (au moins 10 %) cette population
pour que le logiciel d'exploitation puisse identifier facilement cette population et reconnaître
parmi les nouveaux clients ceux qui sont susceptibles d'être intéressés par cette offre. On
procédera de la même manière pour mettre en évidence toute population présentant un
profil intéressant pour l'entreprise : recherche de bons ou mauvais clients, de fraudeurs,
etc…
19.2.1.1.3 - Construire et instruire le programme informatique
Dans cette étape se réalisent les premières opérations d'analyse de données (terme à
considérer dans son acception statistique). Il s'agit de rechercher la ou les techniques à
mettre en œuvre et réaliser / mettre en œuvre le programme.

19.2.1.1.4 - Evaluer le modèle informatique
La plus grande difficulté est de déterminer le volume d'apprentissage optimal. Pour ce faire,
il faut tester les données connues et inconnues. Si les données connues sont trop
importantes, on risque de trouver des paramètres d'estimation très précis sur cette
population mais qui donneront des valeurs très médiocres sur une population inconnue. Le
résultat sera similaire si le volume d'apprentissage est trop faible. Il faut donc trouver un
compromis, comme illustré sur la figure qui suit.
Graphique 2 : déterminer le volume optimal d'apprentissage
19.2.1.1.5 - Appliquer le modèle informatique à de nouvelles données
Lorsque le modèle ou l'apprentissage est effectué, il faut l'appliquer à de nouvelles données.

Cette étape permet au système d'appliquer ses connaissances a ces données.
19.2.1.1.6 - Identifier les cibles potentielles pour la découverte de connaissances dirigée
Dans la suite logique de l'étape précédente, l'utilisateur va exploiter les conclusions et

connaissances. Cela débouche sur de nouvelles interrogations qui se traduisent
généralement par une approche de découverte de connaissances dirigée.

19.2.1.1.7 - Générer de nouvelles hypothèses à tester
C'est la dernière étape : les nouvelles connaissances générées aux étapes précédentes
permettent de générer de nouvelles hypothèse, qu'il faut retravailler. Nous entrons ici dans
le cadre du test d'hypothèses.
19.2.1.2 - SYNTHESE
Dans un processus de découverte de connaissances non dirigée, il faut :
Identifier les sources de données préclassées

Appliquer le modèle informatique à de nouvelles données
Identifier les cibles potentielles pour la découverte de connaissances dirigée
Générer de nouvelles hypothèses à tester

19.2.2 - LA DECOUVERTE DE CONNAISSANCES DIRIGEE
C'est le type d'analyse le plus utilisé. La découverte de connaissances dirigée consiste à

expliquer un (ou plusieurs) champ en fonctions d’un ou plusieurs autres. Le champ cible est
spécifié par l’utilisateur. La connaissance extraite peut être une fonction du temps : un
événement du passé explique une valeur actuelle.
19.2.2.1 - METHODOLOGIE
Au niveau méthodologique, le principe est le même que pour la découverte de

connaissances non dirigée. La seule différence est que dans le cas précédent, les
connaissances générées débouchent soit vers un test d'hypothèse, soit vers un processus de
découverte de connaissances dirigées. Pour mémoire (voir explications au chapitre
précédent), voici les étapes à réaliser :
19.2.2.2 - SYNTHESE
Dans un processus de découverte de connaissances dirigée, il faut :


20 - L'EVALUATION
On a souvent tendance à négliger ou sous estimer les problèmes d'évaluation. L'entreprise
qui entreprend une démarche de data mining, surtout si elle est associée à la mise en œuvre
d'un data warehouse, engage des dépenses très importantes et attend par conséquent un
retour d'investissement.
Pour assurer la rentabilité finale d'un projet, il va falloir en mesurer l'efficacité tout au long
du processus. Chaque modèle, chaque règle doit être évalué, validé.
Une technique d'évaluation consiste à établir le rapport du résultat obtenu sur une
population ciblée (depuis un outil de data mining) par celui qui aurait été obtenu sur la
population totale. Ce rapport s'appelle taux de support ou taux de surconcentration. En fait,
il mesure l'amélioration. Mais ce rapport doit être pris avec précaution car il ne tient pas
compte de l'effectif de chaque classe : si l'on obtient un taux très élevé sur une population de
trois ou quatre individus statistique, la règle perd tout son attrait alors qu'une autre règle
avec un taux très faible peut avoir un impact bien plus important.
De nombreuses techniques de data mining possèdent leurs propres règles d'évaluation. A

celles-ci, nous pouvons ajouter les outils statistiques traditionnels : calculs de moyennes,
écarts types, Khi2, ratios de gestion, etc… mais le problème de l'évaluation est plus
complexe qu'il ne semble. Pour illustrer ces propos, voici quelques exemples :
Si une règle permet d'espérer un gain de clientèle de 5% et un gain de bénéfice de 1%

mais qu'un autre règle permet un gain de clientèle de 1% avec un gain de bénéfice de
2%, laquelle sera la meilleure ?
Si nous rajoutons les coûts liés à la mise en œuvre des solutions trouvées, quelle est
la meilleure solution ?
Il n'y a pas de réponse à priori pour ces problèmes stratégiques.
La manière la plus sage de raisonner en terme de data mining est de définir précisément
au préalable l'objectif de l'analyse. L'évaluation en sera d'autant plus aisée. Un objectif est
précis, chiffré et situé dans le temps. On saura si l'objectif est atteint que si ce dernier est
posé. Ceci paraît évident mais l'expérience montre que c'est loin d'être toujours le cas !
Idéalement, les outils ou critères de l'évaluation finale sont définis en même temps que
l'objectif.
L'évaluation doit être présente tout au long de la démarche de data mining !

21 - PRESENTATION RAPIDE DES TECHNIQUES
21.1 - ANALYSE DU PANIER DE LA MENAGERE

L'analyse du panier de la ménagère est un moyen de trouver les groupes d'articles qui vont
ensembles lors d'une transaction. C'est une technique de découverte de connaissances non
dirigée (de type analyse de clusters) qui génère des règles et supporte l'analyse des séries
temporelles (si les transactions ne sont pas anonymes). Les règles générées sont simples,
faciles à comprendre et assorties d'une probabilité, ce qui en fait un outil agréable et
directement exploitable par l'utilisateur métier. Exemple :
Le client qui achète de la peinture achète un pinceau

Le client qui achète un téléviseur achète un magnétoscope sous 5 ans.
21.2 - LE RAISONNEMENT BASE SUR LA MEMOIRE

Le raisonnement basé sur la mémoire (RBM) est une technique de prédiction et de
classification utilisée dans le cadre de la découverte de connaissances dirigée. Elle peut être
également utilisée pour l'estimation. Pour chaque nouvelle instance présentée, le système
recherche le(s) voisin(s) le(s) plus proche(s) et procède ainsi à l'affectation ou estimation.
L'avantage du RBM est qu'il est facile à mettre en œuvre, très stable (les nouvelles données
n'entraînent pas de refaire fonctionner un système de calcul) et supporte tout type de
données.
21.3 - LA DETECTION AUTOMATIQUE DE CLUSTERS

La détection automatique de clusters est une technique de découverte de connaissances non
dirigée (ou apprentissage sans supervision). Elle consiste à regrouper les enregistrements en
fonction de leurs similitudes. Chaque groupe représente un cluster. C'est une excellente
technique pour démarrer un projet d'analyse ou de data mining. Les groupes de similitudes
permettront de mieux comprendre les données et d'imaginer comment les utiliser au mieux.

21.4 - L'ANALYSE DES LIENS
L'analyse des liens est une technique de description qui s'inspire et repose sur la théorie des
graphes. Elle consiste à relier des entités entre elles (clients, entreprises, …) par des liens. A
chaque lien est affecté un poids, défini par l'analyse, qui quantifie la force de cette relation.
Cette technique peut être utilisée pour la prédiction ou la classification mais généralement
une simple observation du graphe permet de mener à bien l'analyse.
21.5 - LES ARBRES DE DECISION
Les arbres de décision sont utilisés dans le cadre de la découverte de connaissances dirigée.
Ce sont des outils très puissants principalement utilisés pour la classification, la description
ou l'estimation. Le principe de fonctionnement est le suivant : pour expliquer une variable,
le système recherche le critère le plus déterminant et découpe la population en sous
populations possédant la même entité de ce critère. Chaque sous population est ensuite
analysée comme la population initiale. Le modèle rendu est facile à comprendre et les règles
trouvées sont très explicites. Ce système est donc très apprécié.
21.6 - LES RESEAUX DE NEURONES
Les réseaux de neurones représentent la technique de data mining la plus utilisée. Pour
certains utilisateurs, elle en est même synonyme. C'est une transposition simplifiée des
neurones du cerveau humain. Dans leur variante la plus courante, les réseaux de neurones
apprennent sur une population d'origine puis sont capables d'exprimer des résultats sur des
données inconnues. Ils sont utilisés dans la prédiction et la classification dans le cadre de
découverte de connaissances dirigée. Certaines variantes permettent l'exploration des séries
temporelles et des analyses non dirigées (réseaux de Kohonen). Le champ d'application est
très vaste et l'offre logicielle importante.
Cependant, on leur reproche souvent d'être une "boite noire" : il est difficile de savoir
comment les résultats sont produits, ce qui rend les explications délicates, même si les
résultats sont bons.

21.7 - LES ALGORITHMES GENETIQUES
Les algorithmes génétiques sont utilisés dans la découverte de connaissances dirigée. Ils
permettent de résoudre des problèmes divers, notamment d'optimisation, d'affectation ou de
prédiction. Leur fonctionnement s'apparente à celui du génome humain. Le principe de
fonctionnement est le suivant : les données sont converties en chaînes binaires (comme les
chaînes d'ADN - acide désoxyribo nucléique-). Celles-ci se combinent par sélection,
croisement ou mutation et donnent ainsi une nouvelle chaîne qui est évaluée. En fonction du
résultat, les chaînes les plus faibles cèdent leur place aux plus fortes. Cette technique est
particulièrement intéressante pour résoudre des problèmes d'affectation ou des problèmes
sur lesquels on peut poser une fonction d'évaluation car elle peut trouver des solutions
optimisées parfois inexistantes dans les données d'origine.
21.8 - LES AGENTS INTELLIGENTS OU KNOWBOT
Les agents intelligents ou Knowbot sont des entités logicielles autonomes dont les plus
récentes versions s'intègrent tout à fait dans le processus de data mining. Certains iront
jusqu'à les considérer comme des outils de data mining. Certains d'entre eux, les plus
élaborés, sont capables de suivre et mémoriser les mouvements, visites et achats sur Internet
et permettent d'élaborer des profils d'utilisateurs pour leur faire des offres commerciales "un
à un (one to one) ". L'utilisateur peut, quant à lui, lancer des appels d'offres et mises en
concurrence automatiquement gérés par ces agents.
21.9 - LE TRAITEMENT ANALYTIQUE EN LIGNE (TAEL)
Pour terminer ce tour d'horizon, nous évoquerons ici le TAEL (traitement analytique en
ligne) car bien que ne faisant pas partie du data mining, il s'agit d'outils d'analyse de
données souvent utiles en préalable au data mining. Le TAEL est une manière de présenter
aux utilisateurs les données relationnelles afin de faciliter la compréhension des données et
des formes importantes qu'elles recèlent. Ces outils s'appuient sur OLAP, ROLAP, et
MOLAP.

22 - ANALYSE DU PANIER DE LA MENAGERE
22.1 - PRESENTATION
Appelée également recherche d'associations, l'analyse du panier de la ménagère (APM) est

un processus de découverte de connaissances non dirigée. Cette technique permet, comme
l'indique son nom, d'étudier quels articles ont tendance à être achetés ensembles et lesquels
seront le mieux adaptés pour mettre en œuvre des techniques commerciales. Bien qu'elle
soit issue du secteur de la distribution, on peut néanmoins appliquer cette technique dès lors
que plusieurs actions sont effectuées par un même individu. Le système génère des règles
d'association de forme "Si action1 ou condition alors action2". Elles peuvent se situer dans
le temps : "Si action1 ou condition à l'instant t1 alors action2 à l'instant t2". Enfin elles sont
assorties d'une métrique de confiance. Exemples de règles :
Si achat de riz et de vin blanc, alors achat de poisson (84%)

Si maladie X et traitement Y alors guérison (97%)
Si maladie X et traitement Y alors guérison dans Z années (97%)
Si achat de téléviseur alors achat de magnétoscope dans les 5 ans (45%)
Si condition1 et condition2 alors fraudeur (62%)
Si présence et travail alors réussite à l'examen (99,9%)
22.2 - UTILISATION
L'analyse du panier de la ménagère est utilisée pour découvrir des règles d'association et son
but principal est donc descriptif. Dans la mesure ou les résultats peuvent être situés dans le
temps, cette technique peut être considérée comme prédictive. On utilise souvent cette
technique comme point de départ d'une analyse car les règles exprimées sont claires et
explicites pour l'utilisateur métier. Lorsqu'une règle est identifiée comme intéressante à
exploiter, on se tourne alors vers un processus de test d'hypothèses ou de découverte dirigée
pour mieux explorer les données, mais en faisant appel à d'autres techniques.

22.3 - FONCTIONNEMENT
22.3.1 - CONSTRUIRE LE TABLEAU DES COOCCURRENCES
Pour mieux comprendre le fonctionnement de cette technique, prenons un exemple. Dans

un supermarché, plusieurs clients font des achats. Ceux ci sont retranscrits sur des tickets de
caisse. A partir de ces tickets nous obtenons une liste d'articles achetés par client, dont on
dresse une liste récapitulative. Enfin on établit le tableau des cooccurrences, construit en
mettant chaque article en ligne et en colonne puis en indiquant à l'intersection le nombre de
clients ayant acheté les deux en même temps :
Jus d'orange Lait Jus d'orange

Eau Jus d'orange Détergent
Nettoyant vitres
Total : xxx Frs Total : xxx Frs Total : xxx Frs
CLIENT ARTICLES ACHETES

1 Jus d'orange, eau minérale
2 Lait, jus d'orange, nettoyant vitres
3 Jus d'orange, détergent
4 Jus d'orange, détergent, eau minérale
5 Nettoyant vitres, eau minérale
Tableau 37 : liste des achats par client pour l'analyse du panier de la ménagère.
Jus Nettoyant Eau

Lait Détergent
d'orange vitres minérale
Jus d'orange 4 1 1 2 1
Nettoyant vitres 1 2 1 1 0
Lait 1 1 1 0 0
Eau minérale 2 1 0 3 1
Détergent 1 0 0 1 2

Tableau 38 : tableau des cooccurrences

Il est possible de créer un tableau non plus à deux dimensions mais à n. On indiquera alors
le nombre d'occurrences pour chaque n-upplet. Mais au-delà de deux, on perd en lisibilité et
surtout le tableau croît de manière exponentielle (un tableau de dimension n pour p articles
p
nécessite d'alimenter n cellules), ce qui génère beaucoup de matrices creuses. Nous
déconseillons ces tableaux, d'autant que l'intérêt pour l'exploitation est limité.
22.3.2 - LIRE ET INTERPRETER LE TABLEAU

Jus Nettoyant Eau
Lait Détergent
d'orange vitres minérale
Jus d'orange 4 1 1 2 1
Nettoyant vitres 1 2 1 1 0
Lait 1 1 1 0 0
Eau minérale 2 1 0 3 1
Détergent 1 0 0 1 2
Tableau 39 : rappel du tableau des cooccurrences

Dès que le tableau des cooccurrences est établi, une première lecture simple permet
d'obtenir les premiers renseignements :
Une lecture sur la diagonale (fond jaune) permet de connaître le nombre d'unités
vendues de chaque article,
L'article le plus vendu est le jus d'oranges,
Le jus d'oranges et l'eau minérale sont plus vendus ensembles que tout autre couple
d'articles,
Le lait n'est jamais acheté en même temps que l'eau minérale ou le détergent,
Le détergent n'est jamais acheté en même temps que le nettoyant vitres ou le
détergent.
22.4 - LES REGLES
22.4.1 - GENERER DES REGLES
La lecture du tableau (ou son traitement informatique) permet de générer les premières
règles. Il suffit de chercher les valeurs les plus élevées, non situées sur la diagonale pour
formuler les règles du type : si achat <produit en ligne>, alors achat <produit en colonne>.
Dans notre exemple, on pourra dire :
Si un client achète du jus d'orange, alors il achètera de l'eau.
Mais ces règles ne signifient que peu de choses si on ne leur associe pas une métrique de
probabilité ou d'espérance. Pour l'analyse du panier de la ménagère, cette métrique s'appelle
le niveau de confiance. On utilise également les statistiques.

22.4.2 - TYPOLOGIE DES REGLES
L'analyse du panier de la ménagère génère trois types de règles : utiles, triviales, ou

inexplicables.
22.4.2.1 - LA REGLE UTILE
La règle utile contient une information de qualité, exploitable. Elle est généralement facile à
justifier et à comprendre. Si elle est retenue, elle débouche rapidement vers une action.
22.4.2.2 - LA REGLE TRIVIALE
La règle triviale ressemble aux Lapalissades. Elle souligne des évidences ou le résultat
d'actions précédentes. Elles ont la particularité d'avoir des taux de confiance élevés. Ce sont
des règles valides, avérées sur des volumes importants mais totalement inexploitables et
inutiles. Exemples :
Si Titulaire de carte jeunes, alors moins de 25 ans (100%)

Si achat1 alors achat2 (100 %)
Si les articles concernés sont toujours vendus ensembles (en lot), cette règle est en fait une
conséquence. On retrouve également dans cette catégorie le succès de certaines campagnes
promotionnelles tout à fait intéressantes. Par exemple les opérations qui pour l'achat d'un
article vous en offrent un second pour un franc de plus.
22.4.2.3 - LA REGLE INEXPLICABLE
Les règles inexplicables sont difficiles à exploiter directement. Par exemple : "si nouvelle
quincaillerie alors achat abattants de toilettes". Les explications possibles sont nombreuses
mais une enquête complémentaire est nécessaire à la compréhension de la règle : l'article
est-il bien en vue lors de l'ouverture puis caché ensuite ? Le résultat est-il propre à certains
magasins ? L'article est-il difficile à trouver ? …
L'analyse du panier de la ménagère fournit trois types de règles :
Utiles,
Triviales,
Inexplicables.

22.5 - METTRE EN ŒUVRE LA TECHNIQUE
22.5.1 - LA TAXINOMIE
Un supermarché gère environ 100 000 références différentes. Si l'on devait appliquer
l'analyse sur tous les articles, cela représenterait un tableau des cooccurrences de 10
milliards (100 000²) de cellules à alimenter pour seulement des associations de deux articles
! Il faudrait donc des espaces disques importants (capacités en téra-octets) et des temps de
traitements en conséquence. Tout cela n'est aujourd'hui pas très raisonnable et les coûts
induits seraient importants. Pour palier à ce problème, on applique la taxinomie (on utilise
également le terme de taxonomie) : cela consiste à regrouper les articles, à les généraliser
sous un même terme générique, une même rubrique : les chocolats noirs, au lait, de
différentes marques, aux noisettes, allégés, etc… seront tous regroupés sous le terme
chocolat.
22.5.2 - LES ARTICLES VIRTUELS
Pour améliorer la performance du système, il est fréquent de rajouter des articles virtuels.
Cela peut représenter des informations transversales pour regrouper les articles d'une autre
manière que la taxinomie : produits allégés, produits issus de l'agriculture biologique ou une
marque que l'on pourrait trouver dans plusieurs rubriques. On utilise également les articles
virtuels pour donner des indications supplémentaires sur la transaction : donnée temporelle
(jour de la semaine, heure, mois, saison, …), mode de paiement, météo, … et si possible des
données sur le client (satisfaction, type d'habitat, catégorie socioprofessionnelle, âge, statut
matrimonial, etc …). Ce type d'article fournit des règles du type : "si printemps et jardin
alors achat de gants de jardinage".
22.5.3 - LES REGLES DE DISSOCIATION
Une règle de dissociation est analogue à une règle d'association mais elle fait apparaître la
notion de "non". Supposons que dans une entreprise, cinq produits (A,B,C,D,E) soient
proposés aux clients. Si un client prend les produits A,B et D, alors il générera la transaction
{A,B,non C,D et non E}. Ce procédé génère des règles comme : "si achat du produit A et du
produit C alors non achat du produit E". L'inconvénient majeur de cette technique est qu'il
fournit des règles où tout est nié : "si non A et non B alors non C". Les connaissances
générées sont alors peu exploitables et débouchent rarement sur des actions concrètes.

22.5.4 - LES SERIES TEMPORELLES
L'analyse du panier de la ménagère n'est pas le meilleur outil pour étudier les séries
temporelles. L'objet est bien de faire de la description et non de la prévision.
La seule contrainte est de disposer dans les données d'une information de temps ainsi qu'une
clé d'identification de l'objet (principalement le client). La difficulté va alors consister à
transformer les données en transactions. Plusieurs possibilités sont offertes :
Ajouter à chaque article la notion de temps : avant, après, en même temps.

Créer des fenêtres temporelles, c'est à dire regrouper toutes les transactions effectuées dans
un même intervalle de temps par un même individu. Cette technique permet de dégager des
profils, surtout si l'on y associe des articles virtuels.
22.6 - EVALUER LES RESULTATS
Comme nous l'avons indiqué dans le chapitre sur l'évaluation (voir page 167), l'évaluation
doit être un souci permanent. Pour évaluer cette technique, plusieurs indicateurs
complémentaires sont utilisés.
22.6.1 - LA FREQUENCE
A chaque règle, il faut associer une mesure de confiance ou de probabilité. On peut

commencer par une mesure statistique simple de probabilité : la fréquence. La règle vue
dans le paragraphe précédent est vraie pour deux clients sur cinq, soit 40% des clients.
22.6.2 - LE NIVEAU (OU TAUX) DE CONFIANCE
Dans le domaine de l'analyse du panier de la ménagère, on utilise un autre indicateur : le

niveau de confiance. C'est la mesure de la probabilité dans la sous population concernée par
la condition de la règle. Pour la règle "si achat de jus d'orange, alors achat d'eau minérale",
nous examinons la population ayant acheté du jus d'orange (ici 4 individus) et dénombrons
le nombre de fois où la règle est respectée. La proportion obtenue (ici 2 sur 4, soit 50 %)
s'appelle le niveau (ou le taux) de confiance. En fait, il s'agit de la fréquence sur une sous
population. Le niveau de confiance permet de mesurer la force de l'association. Il faut
cependant être prudent avec cet indicateur car il n'intègre pas la notion d'effectif. Nous
avons dans notre exemple un taux de confiance de 100% pour les deux règles suivantes :
Si achat de lait, alors achat de nettoyant vitres

Si achat de détergent, alors achat de jus d'orange
Ces règles portent sur des effectifs respectifs de 1 et 2 individus. Elles sont donc très
relatives, malgré un très bon taux de confiance.
22.6.3 - LE NIVEAU DE SUPPORT
Le niveau de support correspond au nombre de fois où l'association est respectée, ramenée

au nombre de fois où l'un des articles est présent. Par exemple, la règle "Achat de détergent
entraîne achat de jus d'orange présente un taux de confiance de 100 %. L'association est
présente 2 fois mais le jus d'orange ou le détergent est présent chez 4 clients. Cela nous fait
un taux de support de 2/4=50%. Le niveau de support permet de mesurer la fréquence de
l'association.
22.6.4 - LE TAUX D'AMELIORATION
Que vaut une règle si son taux de confiance est inférieur à la fréquence du résultat sans
condition ? Nous avons la règle : "si achat d'eau minérale, alors achat de jus d'orange".
Cette règle est vraie pour 2 clients sur les trois qui ont acheté de l'eau. Le taux de confiance
pour l'achat du jus d'orange dans ces conditions est donc de 2/3, soit 66%. Or 4 clients sur 5
achètent du jus d'orange, soit 80% ! Cette règle ne sera donc pas intéressante à exploiter car
elle rajoute une condition pour un taux moins bon.
Pour mesurer l'amélioration apportée par la règle, on va donc diviser le taux de confiance
par la fréquence de l'événement, soit ici : 0.66 / 0.80 = 0.83 (ou 83 %)
Si le résultat est supérieur à 1, cela signifie que la règle (ou plus précisément le respect de la
condition) apporte une amélioration sur le résultat. Dans le cas contraire, il faut renoncer à
l'exploiter.
Le taux d'amélioration permet de mesurer la pertinence de l'association.
22.7 - LES POINTS FORTS

Les points forts de l'analyse du panier de la ménagère sont :
Les résultats sont clairs et explicites,

Elle est adaptée à l'exploitation non dirigée des données,
Elle traite des données de taille variable,
La technique et les calculs sont simples à comprendre.

22.8 - LES POINTS FAIBLES

Les points faibles de l'analyse du panier de la ménagère sont :
Le volume de calculs croît au carré ou au cube du volume de données,

Elle prend mal en compte les articles rares.
Il est difficile de déterminer le bon nombre d'articles,
Les attributs des articles (détails et quantités) sont souvent ignorés,
22.9 - QUAND L'UTILISER ?

Cette technique s'applique aux problèmes d'exploitation des données non dirigée, contenant
des articles bien définis, qui se regroupent entre eux de manière intéressante. On l'utilise
souvent en tant qu'analyse préalable car elle génère des règles susceptibles de soulever des
interrogations ou des idées, ce qui débouchera sur d'autres analyses plus fines : test
d'hypothèse ou découverte de connaissance dirigée pour expliquer un phénomène révélé.
Bien que capable de résoudre de nombreux type de problèmes, sa vocation reste la
description et l'on a souvent recours à d'autres techniques en complément.
22.10 - SYNTHESE
L'analyse du panier de la ménagère est un moyen de trouver les groupes

d'articles qui vont ensembles lors d'une transaction. C'est une technique de
découverte de connaissances non dirigée (de type analyse de clusters) qui
génère des règles et supporte l'analyse des séries temporelles (si les transactions
ne sont pas anonymes). Les règles générées sont simples, faciles à comprendre
et assorties d'une probabilité, ce qui en fait un outil agréable et directement
exploitable par l'utilisateur métier.

23 - LE RAISONNEMENT BASE SUR LA MEMOIRE
23.1 - PRESENTATION
C'est une technique de découverte de connaissances dirigée utilisée dans un but de

classification et de prédiction. Appelée également raisonnement à base de cas (RBC), ou
Case Based Reasoning (CBR) en anglais, le raisonnement basé sur la mémoire (RBM) est
l'équivalence de l'expérience chez l'homme : en fonction d'elle, tout le monde peut prendre
une décision. Lorsqu'un médecin pose un diagnostic et un traitement, il applique sa
connaissance du patient et de symptômes similaires au cas présent. Son processus sera
l'identification des cas similaires, puis l'application de l'information provenant de ces cas au
problème actuel. Le RBM fonctionne sur le même principe : lorsque l'on présente un nouvel
enregistrement, le RBM trouve les voisins les plus proches et positionne ce nouvel élément.
Le RBM s'applique à tous les types de données.
23.2 - UTILISATION
Le RBM s'adapte bien aux bases de données relationnelles, qui sont les plus courantes dans
le domaine de gestion. Sa mise en œuvre est simple, ce qui en fait un outil apprécié. On peut
l'utiliser pour estimer des éléments manquants, détecter des fraudes, déterminer le meilleur
traitement d'un malade, prédire si un client sera intéressé ou non par telle offre, ou pour
classifier les réponses en texte libre. La police Américaine a utilisé cette méthode
récemment pour identifier (efficacement dans le cas présent) un criminel. En fonction des
indices, un criminel virtuel a été créé. Présenté par le RBM à une base de criminels connus,
celui-ci s'est retrouvé positionné près du véritable criminel !

Pour illustrer le fonctionnement du RBM, prenons un exemple simple. Considérons les

ventes de voitures Renault, ventilées en fonction de l'âge et du nombre d'enfants de
l'acheteur (voir Tableau 40).
Véhicule Age Enfants Véhicule Age Enfants

Clio 25 0 Clio 27 1
Espace 32 4 Megane 30 2
Clio 28 1 Laguna 39 0
Megane 30 2 Safrane 55 0
Safrane 50 1 Clio 24 1
Laguna 35 2 Megane 33 2
Espace 40 3 Laguna 38 2
Clio 30 1 Clio 22 0
Megane 34 2 Megane 35 1
Safrane 52 2 Laguna 39 2
Laguna 38 1 Safrane 54 1
Espace 34 5
Tableau 40 : ventes de voitures en fonction de l'âge et du nombre d'enfants
Ce tableau correspond au graphique suivant :
Ventes de voitures Renault
60
55
50
45
Age
40
35
30
25
20
0 1 2 3 4 5
Nom bre d'enfants
Clio Espace Laguna Megane Safrane

Graphique 3 : vente de voitures en fonction du nombre d'enfants et de l'âge du client

La consultation du graphique montre des zones bien nettes et permettent de déterminer,

pour un nouveau client dont on connaît l'âge et le nombre d'enfants, le modèle susceptible
de l'intéresser. Sur le graphique suivant, nous avons placé trois nouveaux clients
(représentés par les étoiles numérotées). La notion de distance est la distance métrique.
Dans ce cas, nous conseillerons au client 1 une Espace, au client 2 une Clio, au client 3 une
Safrane :
V e n t e s d e v o it u r e s R e n a u lt
60
55 3
50
45
Age
1
40
35
30
25 2
20
0 1 2 3 4 5
N o m b r e d 'e n f a n t s
C lio Espace Laguna M egane S a fra n e
Graphique 4 : positionnement de trois nouveaux clients

Cet exemple est volontairement simpliste mais son unique objectif est pédagogique. Dans
une étude réelle, le vendeur est suffisamment compétent pour connaître ces informations.
De plus, les zones seraient moins nettement définies. Enfin, il faudrait rajouter toutes les
déclinaisons possibles pour un même modèle.
23.4 - METTRE EN ŒUVRE LE RBM

La mise en œuvre de cette technique est relativement simple. Il suffit de déterminer une
fonction de calcul de distance et une fonction de combinaison.
23.4.1 - LA FONCTION DE DISTANCE
La fonction de distance mesure l'éloignement du nouvel item avec ceux déjà connus dans la
base. De nombreuses possibilités sont offertes mais la fonction distance doit respecter les
règles suivantes :
Une distance est toujours une valeur positive

La distance d'un point à lui-même est nulle (identité)
La distance de A à B est égale à la distance de B à A (commutativité)

Il est impossible de raccourcir la distance de A à B en passant par un point C

(inégalité triangulaire)

Pour les données numériques, les trois fonctions de distance les plus courantes entre une
valeur A et une valeur B sont :
La valeur absolue de la différence : |A-B|

Le carré de la différence : (A-B)²
La valeur absolue normalisée : |A-B| / (différence maximale)
L'avantage de la valeur absolue normalisée est qu'elle se trouve toujours entre 0 et 1, ce qui
supprime les problèmes d'échelles.
Cependant, l'utilisateur reste libre de créer sa propre fonction.
Pour les autres types de données, c'est à l'utilisateur de définir sa propre fonction de
distance. Par exemple, pour comparer le sexe d'un individu, on pourra affecter la valeur 1
s'ils sont de sexe différent ou la valeur 0 s'ils sont identiques (voir règle de l'identité). Pour
une catégorie socioprofessionnelle, il suffit de créer une métrique. Pour des communes,
pourquoi ne pas prendre la distance entre elles ou affecter une codification en fonction du
type (urbaine, périurbaine, rurale) ou de la région. Il est toujours préférable de faire une
codification dont le résultat se situera entre 0 et 1.
23.4.2 - LA FONCTION DE COMBINAISON
La fonction de combinaison consiste à combiner les n voisins les plus proches pour obtenir
le résultat de la prédiction souhaitée. Sa mise en œuvre sera plus significative au travers de
l'exemple qui suit.
23.5 - EXEMPLE
Pour notre exemple, considérons une liste de clients ayant déjà répondu à une offre
commerciale (par oui ou non). L'utilisateur métier estime que les critères les plus
déterminants sont le sexe, l'âge et le salaire net du dernier semestre. Soit la liste suivante de
clients identifiés :
Numéro Age Sexe Salaire Acheteur

A 27 F 19000 Non
B 51 M 66000 Oui
C 52 M 105000 Non
D 33 F 55000 Oui
E 45 M 45000 Oui
Tableau 41 : réponse des clients à une offre en fonction de l'âge, du sexe et du salaire

Considérons maintenant un nouveau client : une femme de 45 ans ayant un revenu de

100000 Francs. Déterminons si cette cliente sera intéressée ou non par l'offre.
La fonction de distance est définie ainsi : il s'agit d'une femme, donc la distance par rapport
aux clients connus sera de 1 avec les hommes et de 0 avec les femmes. A ce chiffre, on
ajoute la distance normalisée du salaire et de l'âge, ce qui donne les tableaux des distances
suivants :
Client Age Sexe Salaire Distance totale

A 0.720 0 0.942 1.662
B 0.240 1 0.395 1.635
C 0.280 1 0.058 1.338
D 0.480 0 0.523 1.003
E 0.000 1 0.640 1.640
Tableau 42 : calcul des distances
Les voisins les plus proches sont donc, dans l'ordre : D C B E A
Utilisons maintenant la fonction de combinaison. Il va falloir déterminer le nombre de

voisins retenus pour l'estimation de la réponse. Pour l'exemple, nous allons faire varier ce
nombre de 1 à 5. Cela nous donne le tableau suivant :
Nombre de voisins retenus 1 2 3 4 5

Numéro des voisins D DC DCB DCBE DCBEA
Réponses des voisins O O,N O,N,O O,N,O,O O,N,O,O,N
Décompte des réponses Oui 1 Oui 1 Oui 2 Oui 3 Oui 3
Non 0 Non 1 Non 1 Non 1 Non 2
Valeur retenue Oui ? Oui Oui Oui
Evaluation 100 % 50 % 66 % 75 % 60 %
Tableau 43 : tableau de synthèse utilisant la fonction de combinaison
Il est préférable de prendre un nombre impair car la réponse ne peut prendre que 2 valeurs
et on évite ainsi les réponses incertaines (cas de 2 voisins).
Si nous ne retenons que les trois voisins les plus proches, la réponse sera favorable avec une
probabilité (ou plutôt une espérance) de 66%.
Il aurait été possible également de donner un poids à chaque contribution. Par exemple le
premier voisin le plus proche aurait un poids de 3, le second un poids de 2 et le troisième un
poids de 1. On peut également affecter des poids à chaque variable utilisée dans la fonction
de distance.

23.6 - LES POINTS FORTS DU RBM
Les points forts du RBM sont :
Il produit des résultats explicites,

Il s'applique à tout type de données,
Il est capable de travailler sur de nombreux champs,
Il est facile à mettre en œuvre et à comprendre.
23.7 - LES POINTS FAIBLES DU RBM

Les points faibles du RBM sont :
Il nécessite un grand volume de données pour être performant,

Il est très dépendant des fonctions de distance et de combinaison.
23.8 - SYNTHESE
Le raisonnement basé sur la mémoire (RBM) est une technique de prédiction et

de classification utilisée dans le cadre de la découverte de connaissances dirigée.
Elle peut être également utilisée pour l'estimation. Pour chaque nouvelle
instance présentée, le système recherche les voisins les plus proches et procède
ainsi à l'affectation ou estimation en les combinant entre eux. L'avantage du
RBM est qu'il est facile à comprendre, à mettre en œuvre, très stable (les
nouvelles données n'entraînent pas de refaire fonctionner un système de calcul)
et supporte tout type de données. Les performances de cette technique sont
assez bonnes.

24 - LA DETECTION AUTOMATIQUE DE CLUSTERS
24.1 - PRESENTATION
La détection automatique de clusters est une méthode de découverte de connaissances non

dirigée (ou apprentissage sans supervision). Cette méthode ne nécessite aucun
apprentissage, et son principe consiste à regrouper les éléments par similarités successives.
Elle se décline en deux grandes catégories : la méthode des K-moyennes et les méthodes par
agglomération.
24.2 - UTILISATION
L'objectif de cette technique est de procéder à une classification du type regroupement par
similitude. Chaque groupe est appelé cluster. C'est une technique très puissante et son
champ d'application est important. Une utilisation classique consiste à clusteriser une
population puis, après étude de chaque cluster, faire une offre commerciale tout à fait
adaptée à la population.
Pour utiliser une des méthodes de détection de clusters, il faut prévoir une fonction de
distance qui mesure l'écart entre deux enregistrements (voir paragraphe 23.4.1 - page 183).
24.3.1 - METHODE DES K-MOYENNES
La méthode des K-moyennes permet de découper une population en K clusters. Ce nombre

K est défini par l'utilisateur. Le principe de fonctionnement est assez simple :
On détermine un nombre K de clusters. Ensuite on positionne les K premiers points

(appelés graines) au hasard (on utilise en général les K premiers enregistrements). Chaque
enregistrement est affecté à la graine dont il est le plus proche (en utilisant la fonction de
distance). A la fin de la première affectation, la valeur moyenne de chaque cluster est
calculée et la graine prend cette nouvelle valeur. Le processus est répété jusqu'à stabilisation
des clusters.

24.3.2 - METHODE PAR AGGLOMERATION
Cette technique va permettre de construire un arbre mais contrairement aux arbres de

décision, nous partons des feuilles pour remonter jusqu'à la racine. Le principe est
également simple : on mesure les distances de tous les éléments entre eux, puis on regroupe
ceux qui sont les plus proches. On calcule le centroïde de chaque groupe et on recommence
jusqu'à ce que tous les éléments soient reliés.
24.4 - MISE EN ŒUVRE
La grande difficulté de cette technique est de trouver une fonction de mesure de distance
performante. Cela ne semble poser aucun problème à priori pour des variables numériques.
Pourtant le nombre de possibilités est important : distance Euclidienne, mesure de l'angle,
sommation, sommation normalisée, …pondéré, avec changement de repère, d'échelle,
centré et réduit … La complexité devient plus importante pour des valeurs énumératives
non ordonnées. Si aucune métrique n'est possible, il est courant de prendre une distance
égale à 0 si les variables sont identiques et 1 dans le cas contraire. D'autres solutions
consistent à prendre le nombre de mots communs dans un champs texte par exemple.
Une bonne fonction de distance donnera de bons résultats.
24.5 - EXEMPLES
Le même exemple et problème est utilisé pour illustrer les deux techniques. A des fins
pédagogiques, celui-ci sera simple : classifier des individus selon leurs âges. Soit une liste
aléatoire d'individus dont les âges sont les suivants :
27 - 51 - 52 - 33 - 45 - 22 - 28 - 44 - 40 - 38 - 20 - 57
24.5.1 - METHODE DES K-MOYENNES
Fixons K=3. Les 3 premières graines prennent les trois premières valeurs. Calculons la
distance (ici distance = différence / (amplitude maximum) = différence / 37) entre chaque
point et chaque graine, puis affectons au plus près. Cela nous donne le tableau suivant :
27 51 52 33 45 22 28 44 40 38 20 57
Graine 27 0.00 0.65 0.68 0.16 0.49 0.14 0.03 0.46 0.35 0.30 0.19 0.81
Graine 51 0.65 0.00 0.03 0.49 0.16 0.78 0.62 0.19 0.30 0.35 0.84 0.16
Graine 52 0.68 0.03 0.00 0.51 0.19 0.81 0.65 0.22 0.32 0.38 0.86 0.14
Minimum 0 0 0 0.16 0.16 0.14 0.03 0.19 0.3 0.3 0.19 0.14
Affectation 1 2 3 1 2 1 1 2 2 1 1 3
Tableau 44 : calcul des distances entre chaque graine et chaque point
Une première affectation nous donne :
Graine 1 (27) : 27 - 33 - 22 - 28 - 38 - 20
Graine 2 (51) : 51 - 45 - 44 - 40
Graine 3 (52) : 52 - 57
Pour le calcul des nouveaux centroïdes, prenons la moyenne arithmétique de chaque cluster,
soit 28 pour la graine 1, 45 pour la graine 2 et 54.5 pour la graine 3. Ces valeurs
représentent les positions des nouvelles graines. Recommençons le processus de calcul de
distance par rapport à ces nouvelles valeurs. Cela donne le tableau suivant :
27 51 52 33 45 22 28 44 40 38 20 57
Graine 28 0.03 0.62 0.65 0.14 0.46 0.16 0 0.43 0.32 0.27 0.22 0.78
Graine 45 0.49 0.16 0.19 0.32 0 0.62 0.46 0.03 0.14 0.19 0.68 0.32
Graine 54.5 0.74 0.09 0.07 0.58 0.26 0.88 0.72 0.28 0.39 0.45 0.93 0.07
Minimum 0.03 0.09 0.07 0.14 0 0.16 0 0.03 0.14 0.19 0.22 0.07
Affectation 1 3 3 1 2 1 1 2 2 2 1 3
Tableau 45 : calcul des distances entre chaque point et les nouvelles graines (centroïdes)
L'affectation donne donc la répartition suivante :
Graine 1 (28) : 27 - 33 - 22 - 28 - 20 Moyenne = 26

Graine 2 (45) : 45 - 44 - 40 - 38 Moyenne = 41.75
Graine 3 (54.5) : 51 - 52 - 57 Moyenne = 53.33
En réitérant le processus, nous voyons qu'il ne modifie plus les affectations. Les clusters
sont donc finalisés :
Cluster 1: 27 - 33 - 22 - 28 - 20 Jeunes majeurs - Centroïde = 26

Cluster 2: 45 - 44 - 40 - 38 Quadragénaires - Centroïde = 41.75
Cluster 3: 51 - 52 - 57 Quinquagénaires - Centroïde = 53.33

24.5.2 - METHODE PAR AGGLOMERATION
Nous prenons toujours la même population. Classifions les âges suivants :
27 - 51 - 52 - 33 - 45 - 22 - 28 - 44 - 40 - 38 - 20 - 57
Pour la méthode par agglomération, il faut faire la demie matrice (car la fonction distance
est commutative) des distances des éléments deux à deux :
27 51 52 33 45 22 28 44 40 38 20 57
27 0.00 0.65 0.68 0.16 0.49 0.14 0.03 0.46 0.35 0.30 0.19 0.81
51 0.65 0.00 0.03 0.49 0.16 0.78 0.62 0.19 0.30 0.35 0.84 0.16
52 0.68 0.03 0.00 0.51 0.19 0.81 0.65 0.22 0.32 0.38 0.86 0.14
33 0.16 0.49 0.51 0.00 0.32 0.30 0.14 0.30 0.19 0.14 0.35 0.65
45 0.49 0.16 0.19 0.32 0.00 0.62 0.46 0.03 0.14 0.19 0.68 0.32
22 0.14 0.78 0.81 0.30 0.62 0.00 0.16 0.59 0.49 0.43 0.05 0.95
28 0.03 0.62 0.65 0.14 0.46 0.16 0.00 0.43 0.32 0.27 0.22 0.78
44 0.46 0.19 0.22 0.30 0.03 0.59 0.43 0.00 0.11 0.16 0.65 0.35
40 0.35 0.30 0.32 0.19 0.14 0.49 0.32 0.11 0.00 0.05 0.54 0.46
38 0.30 0.35 0.38 0.14 0.19 0.43 0.27 0.16 0.05 0.00 0.49 0.51
20 0.19 0.84 0.86 0.35 0.68 0.05 0.22 0.65 0.54 0.49 0.00 1.00
57 0.81 0.16 0.14 0.65 0.32 0.95 0.78 0.35 0.46 0.51 1.00 0.00
Tableau 46 : tableau des distances entre chaque point
Positionnons un seuil à 10% (0.1) à chaque itération. Ainsi, nous aurons au maximum 10
étages. Ce seuil est fixé aléatoirement en fonction du niveau de regroupement souhaité par
l'utilisateur. L'ensemble des valeurs est ordonné en ordre croissant. Pour la première
itération, nous ne prenons que les valeurs ayant un seuil inférieur à 10%, soit :
0.03 (52-51), 0.03 (27-28), 0.03 (44-45), 0.05 (38-40), 0.05 (20-22)
51 52 27 28 44 45 38 40 20 22 33 57
Tableau 47 : premières agglomérations
chaque cluster ainsi formé est représenté par son centroïde (ici nous prendrons la moyenne),
ce qui nous donne la nouvelle série suivante :
27.5 - 51.5 - 33 - 44.5 - 21 - 39 - 57

Nous recommençons le processus avec cette nouvelle série et le seuil de 20% (0.20).
27.5 51.5 33 44.5 21 39 57

27.5 0.00 0.67 0.15 0.47 0.18 0.32 0.82
51.5 0.67 0.00 0.51 0.19 0.85 0.35 0.15
33 0.15 0.51 0.00 0.32 0.33 0.17 0.67
44.5 0.47 0.19 0.32 0.00 0.65 0.15 0.35
21 0.18 0.85 0.33 0.65 0.00 0.50 1.00
39 0.32 0.35 0.17 0.15 0.50 0.00 0.50
57 0.82 0.15 0.67 0.35 1.00 0.50 0.00
Tableau 48 : calcul des distances avec les nouvelles valeurs
Avec un seuil de 20%, nous regroupons les valeurs suivantes (dans l'ordre) :
0.15 (33-27.5), 0.15 (57-51.5), 0.15 (39-44.5)), 0.17 (33-39), 0.18 (21-27.5), 0.19 (44.5-
51.5)
Les liens 33-39 et 44.5-51.5 sont pris en compte au niveau 3 car il relie des groupes déjà
reliés par des prédécesseurs. Cela nous donne le graphe suivant :
20 22 27 28 33 38 40 44 45 51 52 57
Tableau 49 : deuxième et troisième niveau d'agrégation.
Une autre solution aurait pu consister à grouper les éléments entre eux en prenant dans
l'ordre croissant les distances. Cela donnerait le graphe suivant :
20 22 27 28 33 38 40 44 45 51 52 57
Tableau 50 : fin de la construction de l'arbre.

Dans l'exemple présent, cela donne sensiblement le même graphe mais il peut être très
différent.

24.6 - EVALUER
Lorsque les clusters sont déterminés, par la méthode des K-moyennes, il faut évaluer la
qualité de chaque cluster. L'intérêt de la technique est de regrouper des populations
statistiques avec le plus grand degré de similarité. Une solution possible consiste à étudier la
variance de la distance de cette population. Un cluster solide sera constitué d'une population
significative et d'une variance faible.
D'autres évaluations sont à faire :
Si la population d'un cluster est trop faible, il pourrait être valable de grouper ce cluster avec
un autre.
Si un cluster est trop dominant, il sera préférable de scinder la population en deux (dans et
hors cluster) et de relancer le processus pour chaque sous groupe.

Les points forts de cette technique sont :
Les résultats sont clairs,

La technique est plutôt facile à mettre en œuvre
La méthode des K-moyennes n'est pas grosse consommatrice de ressources
Son application est facile

Les points faibles de cette technique sont :
Il est difficile de trouver une bonne fonction de distance

Certains clusters résultants peuvent être difficiles à expliquer
24.9 - SYNTHESE
La détection automatique de clusters est une technique de découverte de

connaissances non dirigée (ou apprentissage sans supervision). Elle consiste à
regrouper les enregistrements en fonction de leurs similitudes. Chaque groupe
représente un cluster. C'est une excellente technique pour démarrer un projet
d'analyse ou de data mining. Les groupes de similitudes permettront de mieux
comprendre les données et d'imaginer comment les utiliser au mieux.

25 - LES ALGORITHMES GENETIQUES
25.1 - PRESENTATION
Les algorithmes génétiques représentent une technique dont la vocation principale est
l'optimisation, mais on peut également les utiliser pour des prédictions ou classifications.
Leur champ d'application est très large. C'est une technique récente : les premiers travaux
datent de la fin des années 50 où biologistes et informaticiens ont coopéré pour modéliser
les mécanismes génétiques sur ordinateurs. Mais c'est surtout au début des années 60 que
John Holland développa ses travaux de recherche sur ce thème. Le terme d'algorithme
génétique, quant à lui, date de 1967, tandis que l'algorithme date de 1975. Ces concepts
étaient mal perçus car à cette époque régnait la recherche opérationnelle capable de trouver,
par définition, la meilleure solution, tandis que les algorithmes génétiques se basent sur un
processus aléatoire dont l'objectif est de trouver une meilleure solution que celle en cours.
Actuellement peu de produits commerciaux proposent ces algorithmes. En fait ils sont
intégrés de manière transparente pour optimiser l'apprentissage des réseaux de neurones.
25.2 - UTILISATION
Les algorithmes génétiques trouvent de nombreux domaines d'applications. Ils sont utilisés
dans l'industrie pour optimiser ou contrôler les processus (pression d'un cylindre,
température d'un four, etc…), dans le domaines spatiaux (choix des meilleures
implantations d'un distributeur automatique de billets de banque), dans le domaine
marketing (choix des meilleurs candidats à une offre) mais on les trouve surtout dans le data
mining où ils vont optimiser les performances des systèmes : modifier les paramètres d'une
régression, optimiser les poids des liaisons d'un réseau neuronal, isoler les variables qui
permettent le mieux d'interpréter le comportement des clients dans un arbre de décision.
25.3.1 - NOTIONS DE GENETIQUE
Les algorithmes génétiques sont basés sur les principes de Darwin dans ce domaine. Les
chromosomes (à la base des théories sur l'hérédité et l'évolution) sont formés de brins
d'ADN (acide désoxyribonucléique). Ceux-ci sont porteurs d'informations sur toutes les
caractéristiques des individus (couleur des yeux, forme des lèvres, maladies héréditaires,
tares, …). Lors du processus de reproduction, les gènes se combinent entre eux et les gènes
les plus faibles ou les moins biens adaptés tendent à disparaître. Ceci rend les nouveaux
individus plus aptes à évoluer dans leur environnement. Il arrive également que certains
gènes se combinent mal et aboutissent à des anomalies génétiques.
25.3.2 - LES ALGORITHMES GENETIQUES
Les algorithmes génétiques s'inspirent du processus naturel décrit ci-dessus (voir § 25.3.1 -
). Le fichier de départ doit être codé par des 0 et des 1. Un nombre n de chromosomes est
fixé par le système. Ce nombre ne bougera plus. Pour initialiser le processus, on peut
prendre les n premiers enregistrements. Chaque chromosome est évalué par une fonction
adéquate. Cela donnera naissance à une nouvelle génération proportionnelle au résultat de
l'évaluation. Divers processus (mutation, croisement, …) seront mis en œuvre. Le système
choisira de manière aléatoire n nouveaux chromosomes parmi les descendants, ce qui
réinitialise le processus. Compte tenu de la méthode de calcul des descendants, les sujets
potentiellement les mieux adaptés ont plus de chances d'être choisis.
25.4 - MISE EN ŒUVRE DES ALGORITHMES GENETIQUES
25.4.1 - PREPARATION DES DONNEES
Pour pouvoir fonctionner correctement, les données doivent être codées sous forme d'une
séquence de 0 et de 1. Les données numériques sont codées en binaires tandis que les autres
variables sont codifiées sur un ou plusieurs codes élémentaires. Par exemple sexe peut être
codé 1 pour les femmes et 0 pour les garçons; nombre annuel de commandes peut être 00
pour aucune, 01 pour une ou deux, 10 pour trois ou quatre, et 11 pour 5 et plus, …
25.4.2 - FONCTION D'EVALUATION
Il faut définir une fonction d'évaluation pour mesurer l'aptitude d'un enregistrement. C'est la
partie la plus délicate, comme nous l'avons déjà souligné au paragraphe 24.4 - page 189 . Il
faut trouver une fonction adéquate au problème posé et chaque cas est un cas particulier. Il
existe cependant deux techniques couramment utilisées. La première consiste à faire
l'évaluation compte tenu de cas analogues existants dans l'historique. La seconde consiste à
créer une fonction spécifique qui va retirer des points lorsque les contraintes ne sont pas
respectées.

25.4.3 - GENERATION DES DESCENDANTS
Un chromosome représente un enregistrement codé en binaire. Il faut initialiser le processus

avec un nombre n fixe de chromosomes. Ce nombre ne changera pas. Chaque chromosome
est soumis à la fonction d'évaluation, pour mesurer sa justesse (fitness en anglais). Les
chromosomes les plus adaptés reçoivent une descendance plus importante. L'ensemble des
descendants représente un cercle composé de n secteurs. Exemple :
Soient 4 chromosomes qui, soumis à la fonction d'évaluation, obtiennent les résultats

respectifs suivants :
Chromosome Evaluation % Angle en radians

111100110 12 35.3 % 2.218
100101000 4 11.7 % 0.739
011001001 15 44.1 % 2.772
001110110 3 8.8 % 0.554
TOTAL 34 100 % 2 PI
Tableau 51 : évaluation des chromosomes
000111011
9%
111100110
35%
011001001
44%
100101000
12%
Graphique 5 : répartition des descendants sur un cercle

25.4.4 - PROCESSUS DE SELECTION
L'effectif de la population est constant pour éviter une extinction ou un trop grand
développement. Par conséquent le nombre de descendants est toujours ramené à celui des
parents. Le processus de sélection est aléatoire. Chaque descendant prend une surface d'un
secteur du cercle proportionnel à son aptitude (résultat de la fonction d'évaluation). L'angle
représenté par chaque chromosome vaut donc 2xPIxfréquence (voir Tableau 51 page 197).
Sur le principe de la roue de la fortune, on procède au tirage aléatoire dans le cercle. Cette
valeur représentera le chromosome retenu. On veillera à éviter qu'une valeur ne domine pas
trop les autres, surtout pas trop vite car il faut conserver un minimum de diversité. En
procédant ainsi, les chromosomes les plus adaptés reçoivent une descendance plus
importante. Cette croissance des meilleures solutions sous la contrainte de la pression
sélective (selective pressure) conduit à une disparition progressive des solutions les moins
adaptées (ceci contribue à confirmer les théories de Darwin).
000111011
9%
111100110
35%
Valeur
retenue
011001001 La roue
44%
tourne
100101000
12%
Graphique 6 : processus de sélection des descendants

25.4.5 - MANIPULATIONS GENETIQUES
Lorsque les descendants sont définis, on peut procéder à des manipulations sur ceux-ci. Il
existe trois types de manipulations : l'hybridation (ou croisement), la mutation ou
l'inversion.
25.4.5.1 - HYBRIDATION
L'hybridation ou croisement (cross-over en anglais) consiste à permuter deux chromosomes

à partir d'un point choisi de manière aléatoire.
Tableau 52 : hybridation de deux chromosomes
25.4.5.2 - MUTATION
La mutation consiste à changer la parité d'un des éléments pris au hasard :
Tableau 53 : mutation d'un chromosome
25.4.5.3 - INVERSION
L'inversion consiste à intervertir deux caractères consécutifs :
Tableau 54 : inversion dans un chromosome
50% à 60 % des descendants vont subir une manipulation. Afin d'obtenir de bonnes
performances, le taux d'hybridation est souvent élevé (80% du taux de manipulation).

25.4.6 - FIN DU PROCESSUS
Après les manipulations, le système choisit de manière aléatoire parmi tous les descendants
le nombre fixe de chromosomes (généralement faible, de l'ordre des unités). Le processus
recommence jusqu'à trouver une solution acceptable.
25.4.7 - SYNOPTIQUE
Choix des n
premiers
chromosomes
-1-
Génération des
descendants Evaluation des
chromosomes
-2-
Sélection (choix
pseudo-aléatoire) d'une
nouvelle génération de
n chromosomes
-3-
Manipulations
génétiques
(hybridation, inversion,
mutation)
Solution
acceptable ?
NON
OUI
Fin du
processus
Tableau 55 : synoptique du processus de mise en œuvre des algorithmes génétiques


25.5 - EXEMPLE
Pour illustrer cette technique, nous allons prendre un exemple simple. Nous cherchons à
maximiser une valeur numérique codée sur 8 caractères (de 00000000 à 11111111). Notre
fonction d'évaluation vaut f(x)=-x²+256x. Initialisons la procédure avec les 4 chromosomes
suivants, choisis au hasard : 00110011, 11001111, 00000111, 10101010 (soit 51, 207, 7 et
170)
L'évaluation de ces valeurs donne respectivement : 10455 - 10143 - 1743 - 14620
L'estimation moyenne est de 9240,25. La meilleure estimation correspond au point 170 (soit
en binaire 10101010). Calculons les descendants. La répartition sera la suivante :
Chromosome Valeur décimale Aptitude Fréquence Nombre de descendants

00110011 51 10455 0,28 1
11001111 207 10143 0,27 1
00000111 7 1743 0,05 0
10101010 170 14620 0,40 2
Total 36961 1 4
Nous voyons que le chromosome le moins bien adapté disparaît. La génération des
descendants vaut : 00110011, 11001111, 10101010,10101010. Procédons maintenant aux
manipulations génétiques : croisons les descendants 2 et 3 à partir du quatrième caractère et
opérons une mutation sur le troisième caractère 4ème descendant et une inversion sur les
deuxième et troisième caractère du 1er descendant. Cela nous donne la génération suivante :
01010011,11001010,10101111,10001010. Evaluons cette nouvelle génération :
Chromosome Valeur décimale Aptitude Fréquence Nombre de descendants

01010011 83 14359 0,26 1
11001010 202 10908 0,20 1
10101111 175 14175 0,25 1
10001010 138 16284 0,29 1
Total 55726 1 4
Nous constatons que la solution globale est meilleure (meilleur total) et que la solution
10001010 représentée par le 4ème descendant est la meilleure jusqu'à présent.
En réitérant ce processus, nous constaterions que les solutions convergent vers la meilleure
valeur assez rapidement.

Les points forts des algorithmes génétiques sont :
Les résultats sont explicites et facile à analyser

Ils peuvent traiter une large gamme de types de données
Ils s'adaptent bien aux problèmes d'optimisation
Ils sont performants pour optimiser les réseaux de neurones
Les points faibles des algorithmes génétiques sont :
Le codage binaire peut être complexe à réaliser

L'optimilaté, voire l'optimisation n'est pas garantie
Les produits commerciaux sont rares
25.8 - SYNTHESE
Les algorithmes génétiques sont utilisés dans la découverte de connaissances

dirigée. Ils permettent de résoudre des problèmes divers, notamment
d'optimisation, d'affectation ou de prédiction. Leur fonctionnement
s'apparente à celui du génome humain. Le principe de fonctionnement est le
suivant : les données sont converties en chaînes binaires (comme les chaînes
d'ADN - acide désoxyribo nucléique-). Celles-ci se combinent par sélection,
croisement ou mutation et donnent ainsi une nouvelle chaîne qui est évaluée. En
fonction du résultat, les chaînes les plus faibles cèdent leur place aux plus fortes.
Cette technique est particulièrement intéressante pour résoudre des problèmes
d'affectation ou des problèmes sur lesquels on peut poser une fonction
d'évaluation car elle peut trouver des solutions optimisées parfois inexistantes
dans les données d'origine.

26 - LES AGENTS INTELLIGENTS OU KNOWBOT
26.1 - PRESENTATION
Le terme de Knowbot est un condensé de Knowledge (connaissance) et Robot. Ce terme a

été traduit en français par "agent intelligent". Un agent est une entité physique ou abstraite
capable d'agir sur elle-même et sur son environnement. Il dispose d'une représentation
partielle de cet environnement et peut communiquer avec d'autres agents. Il poursuit un
objectif individuel et son comportement est la conséquence de ses observations, de ses
compétences, et des interactions qu'il peut avoir avec d'autres agents et son environnement.
Un agent possède un objectif personnel qui le distingue fortement des programmes
informatiques traditionnels très collectivistes. C'est une entité logicielle qui présente les
caractéristiques suivantes; il est :
Gérable (il prend ses instructions d'un homme ou d'un agent)

Autonome (il préserve ses intérêts propres)
Persistent (il sait ne rien faire sur de longues périodes)
Fiable (il répond aux besoins de l'utilisateur)
Prévoyant (il sait anticiper les besoins)
Actif (il peut prendre des initiatives)
Communicant (il interagit pour résoudre les problèmes ou conflits)
Adaptatif (il sait changer d'environnement)
26.2 - UTILISATION
L'explosion d'Internet a considérablement accru les volumes d'informations accessibles.

Pour s'en convaincre, il suffit de lancer une recherche sur un mot clé pour trouver quelques
dizaines de milliers de sites en rapport. Une telle quantité de données représente plus un
handicap qu'un avantage. Les agents intelligents ont trouvé dans ce domaine un secteur tout
à fait adapté à leurs fonctionnalités. Au service de l'utilisateur, ils sont capables de générer
et d'exécuter un plan de recherche, de résoudre les problèmes dans l'exécution de ce plan et
par interaction avec l'utilisateur, d'améliorer leurs comportements.
Ces types d'agents ne relèvent pas du data mining puisqu'ils ne font que reproduire un
processus manuel. Cependant, avec le développement du commerce électronique sur le
Web, de nouveaux agents "commerciaux" (les conseillers électroniques), sont mis en place
et on peut tout à fait assimiler leurs fonctions aux tâches du data mining.

26.3 - LES CONSEILLERS ELECTRONIQUES
L'ouverture du commerce électronique (sur le Web) offre une nouvelle perspective pour les
agents intelligents. Ils peuvent exécuter les deux facettes d'une négociation : il existe des
agents vendeurs et des agents négociateurs.
26.3.1 - LES AGENTS NEGOCIATEURS
Un agent négociateur parcourt une liste de vendeurs potentiels. Il diffuse une demande de
tarifs sur les sites visités. Par la même occasion, il fixe un délai à sa demande. Il gère les
réponses et se charge des relances. Enfin, il établit un rapport pour le demandeur.
L'utilisateur sélectionne le vendeur et l'agent se charge de l'envoi du bon de commande.
26.3.2 - LES AGENTS VENDEURS
Un agent vendeur apprend à connaître un client en examinant ses achats et en complétant

ses connaissances par des questions complémentaires. La proposition de certaines offres et
la réponse du client permettent à l'agent de construire un profil précis de l'acheteur. L'agent
est doué d'une capacité d'apprentissage qui lui permet de connaître de mieux en mieux le
client potentiel. Dès lors, et grâce aux outils de data mining (le raisonnement basé sur la
mémoire par exemple - voir page 180 -), il est capable de faire des offres commerciales de
type "un à un".
26.4 - KNOWBOT ET DATA MINING
Etant donné qu'il existe plusieurs définitions pour le data mining, il est difficile de dire si le
Knowbot en fait partie ou non. Mais même si certains puristes ne l'intègrent pas, il s'inscrit
dans la périphérie. L'utilisation la plus fréquente du data mining est le domaine commercial
en vue de faire des offres individualisées aux clients potentiels. Il ne fait aucun doute que ce
type d'agent s'inscrit pleinement dans ce cadre.

26.5 - EXEMPLE
Actuellement des expériences sont en place aux Etats-Unis. Sur abonnement, un utilisateur
initialise le processus en remplissant un questionnaire sur ce qu'il aime et déteste. Par la
suite, tous les achats électroniques sont enregistrés et remontés vers la société détentrice du
système. Dans le même temps, par analogie de goûts et comportements, le système fait des
propositions individualisées au client. Ce type de service est consultable par exemple sur
http://www.firefly.com ou http://www.hotmail.com. Début 1998, la société Microsoft a
racheté la société hotmail (qui propose ce type de services) et dispose ainsi de 9 millions
d'abonnés. En mai 1998, la société firefly à été rachetée également par Microsoft. Ce dernier
envisage d'intégrer ce principe dans les versions futures de son navigateur (Internet
Explorer). L'intérêt de Microsoft pour ces technologies montre bien son enjeu stratégique et
commercial.
26.6 - SYNTHESE
Les agents intelligents ou Knowbot sont des entités logicielles autonomes dont
les plus récentes versions s'intègrent tout à fait dans le processus de data
mining. Certains iront jusqu'à les considérer comme des outils de data mining.
Certains d'entre eux, les plus élaborés, sont capables de suivre et mémoriser les
mouvements, visites et achats sur Internet et permettent d'élaborer des profils
d'utilisateurs pour leur faire des offres commerciales "un à un (one to one) ".
L'utilisateur peut, quant à lui, lancer des appels d'offres et mises en
concurrence automatiquement gérés par ces agents.
Cette évolution (tout comme celle du data mining) nous amènent à nous poser
des questions d'éthique et de respect de la vie privée.

27 - LES RESEAUX BAYESIENS
27.1 - PRESENTATION
Les réseaux Bayésiens ont pour objectif la découverte des relations. Ils permettent en effet
la compréhension de certaines relations.
Leur fonctionnement est basé sur la théorie des graphes.
27.1.1 - RAPPEL SUR LA THEORIE DES GRAPHES
Un graphe est composé :
De nœuds ou sommets qui représentent les objets,

D’arêtes qui relient les objets,
De chemins qui sont une suite ordonnée de nœuds reliés par des arêtes.
1 3 2
4 5
Figure 25 : un graphe
Un graphe peut être connexe, totalement connexe, pondéré et/ou orienté.
Graphe connexe : il existe un chemin entre chaque nœud.
1 4 2
Figure 26 : graphe connexe

Graphe totalement connexe : il existe une arête entre chaque paire de nœuds.
1 2 3
Figure 27 : graphe totalement connexe
Graphe pondéré : chaque arête possède un poids.

5 2
1 2 3
Figure 28 : graphe pondéré
Graphe orienté : une arête est représentative d’un sens.

1 2 3
Figure 29 : graphe orienté
Un réseau Bayésien est un graphe orienté dans lequel les nœuds représentent les variables et
dans lequel les arêtes symbolisent les dépendances entre les variables. Il mesure la
probabilité d’apparition d’un événement connaissant le résultat observé sur d’autres
variables.

27.3 - MISE EN PLACE
La mise en place d’un réseau Bayésien passe par les étapes suivantes :
Préparation des variables,

Sélection des variables,
Identification des dépendances,
Matrice des probabilités.
27.3.1 - PREPARATION DES VARIABLES
Cette étape consiste à distinguer les variables discrètes et continues, puis à définir des
intervalles pour les variables continues.
27.3.2 - SELECTION DES VARIABLES
C’est la détermination des variables d’entrée et de sortie, sachant qu’une variable de sortie
ne peut pas être une entrée pour une autre variable. La sélection s’effectue par un
classement d’après la mesure d’entropie dont la formule est la suivante
H(X) = ΣP(x)logP(X)
avec X une variable et P(X) sa probabilité d’apparition.
27.3.3 - IDENTIFICATION DES DEPENDANCES
Cela consiste à mesurer la dépendance entre les nœuds puis à les classer par ordre
décroissant.
La mesure de la dépendance entre deux variables s’effectue en calculant un facteur de

dépendance
I(X/Y) = H(X) – H(X/Y)
Ce facteur permet de déterminer l’incidence de la variable Y sur la variable X, si ce résultat

est nul, cela signifie que les variables sont indépendantes.
La difficulté reste à déterminer quel seuil est significatif.

27.3.4 - MATRICE DES PROBABILITES
C’est le comptage des occurrences entre les nœuds afin d’établir les probabilités.
Bonne résolution,
Bonne visibilité,
Bonne découverte de relation.
27.4.1 - BONNE RESOLUTION
Cette technique permet une très bonne résolution des problèmes basés sur les liens. Elle
peut être utilisée dans les domaines du transport, des télécommunications, …
27.4.2 - BONNE VISIBILITE
De par son coté graphique, elle donne une bonne visualisation des résultats et met en
évidence les relations entre les différents éléments.
27.4.3 - BONNE DECOUVERTE DE RELATIONS
Une fois les liens analysés, de nouveaux critères de décision peuvent être mis en place.
Mauvaise adaptation,
Peu d’outils,
Mauvaise performance.
27.5.1 - MAUVAISE ADAPTATION
L’un des principaux inconvénients de cette technique est la difficulté d’adaptation à de

nombreux types de données.

27.5.2 - PEU D’OUTILS
De plus, il existe à l’heure actuelle peu d’outils sur le marché.
27.5.3 - MAUVAISE PERFORMANCE
Cette technique engendre de nombreuses lectures et de nombreux calculs, dus aux multiples
combinaisons possibles ce qui la rend très consommatrice de puissance machine.
En conclusion, les réseaux Bayésiens ne sont pas bien adaptés à la prédiction

ou la classification des données, mais les relations découvertes sont un bon
point d’entrée pour d’autres techniques, telles les réseaux de neurones ou les
arbres de décisions.

28 - LES ARBRES DE DECISIONS
28.1 - PRESENTATION
Les arbres de décisions ont pour objectif la classification et la prédiction.
Leur fonctionnement est basé sur un enchaînement hiérarchique de règles exprimées en

langage courant.
Un arbre de décision est composé :
D’un nœud racine par lequel entre les enregistrements,

De questions,
De réponses qui conditionnent la question suivante,
De nœuds feuilles qui correspondent à un classement.
1 Noeud racine
2 Noeud fils 3 Noeud feuille
5
4 Noeuds feuilles
Figure 30 : structure d'un arbre de décision
Le jeu de questions et réponses est itératif jusqu’à ce que l’enregistrement arrive à un nœud
feuille.
Afin de déterminer quelle variable doit être affectée à chaque nœud, la technique applique
un algorithme sur chacun des paramètres et conserve le plus représentatif d’un découpage
Il existe trois algorithmes de calcul CART, C4.5 et CHAID.

28.2.1 - CART
Cet algorithme a été publié en 1984 par L.Briemen. Il est utilisé dans de nombreux outils du
marché.
Processus
Trouver la première bifurcation,

Développer l’arbre complet,
Mesurer le taux d’erreur à chaque nœud,
Calculer le taux d’erreur de l’arbre entier,
Elaguer,
Identifier les sous-arbres,
Evaluer les sous-arbres,
Evaluer le meilleur sous-arbre.
La première bifurcation est celle qui divise le mieux les enregistrements en groupes. Ainsi
pour déterminer le critère qui effectuera le meilleur partage entre les éléments, un indice de
diversité est calculer, selon la formule suivante :
Max. de : diversité(avant division) – (diversité fils gauche + diversité fils droit)
Il existe différents modes de calcul pour l’indice de diversité :
- Min. (Probabilité(c1), Probabilité(c2)),

- 2 Probabilité(c1)Probabilité(c2),
- (Probabilité(c1)logProbabilité(c1))+ (Probabilité(c2)logProbabilité(c2))
Nœud racine
Féminin Masculin
80 % 20 %
Nœuds intermédiaires
Figure 31 : construction de l'arbre

Une fois la première bifurcation établie, nous avons donc le nœud racine qui se sépare en
deux. L’étape suivante est donc de développer l’arbre complet en divisant de la même façon
les nouveaux nœuds crées, et ainsi de suite tant que le résultat de la division a une valeur
significative. Le dernier nœud étant le nœud feuille qui donne le classement final d’un
enregistrement.
L’arbre résultant n’est pas obligatoirement le meilleur, la prochaine étape est de calculer le
taux d’erreur pour chaque nœud. Si nous supposons que 11 enregistrements sur 15 sont
classés correctement d’après l’ensemble d’apprentissage, la probabilité pour ce nœud est de
11/15 soit 0,7333. Le taux d’erreur attribué est de 1 – 0,7333 = 0,2667.
Le calcul du taux d’erreur de chaque nœud étant fait, il est possible de calculer le taux
d’erreur de l’arbre entier soit :
t : taux d’erreur d’un nœud

P : probabilité d’aller au nœud
Taux d’erreur de l’arbre = Σ (t * P)
Soit dans l’exemple, avec un taux d’erreur de (15/17) pour le nœud Masculin
((11/15) * 0,80) + ((15/17) * 0,20) = 0,763
Le danger de l’arbre de décision, tel qu’il est constitué à l’issue du premier passage, est que
certains nœuds feuilles ne contiennent pas suffisamment d’enregistrements pour être
significatifs. Il faut élaguer, le plus complexe étant de trouver la bonne limite à appliquer.
Le choix des branches à supprimer, se fait par l’intermédiaire du taux d’erreur ajusté d’un
arbre qui se calcule, sur chaque sous arbre possible, comme suit :
Soit α le compte des feuilles

Taux d’erreur ajusté = taux d’erreur + αcompte des feuilles
Un premier sous arbre est candidat lorsque son taux d’erreur ajusté devient plus petit ou
égal au taux d’erreur ajusté de tout l’arbre. Toutes les branches, qui n’en font pas partie,
sont élaguées, et le processus recommence ainsi de suite jusqu’au nœud racine.
Il faut donc maintenant choisir parmi tous les sous arbres candidats. Pour cela, chaque sous
arbre va être exécuter avec un ensemble de test, celui qui aura le plus petit taux d’erreur sera
considéré comme le meilleur.
Enfin pour contrôler l’efficacité du sous arbre sélectionné, un ensemble d’évaluation va lui
être soumis. Son taux d’erreur obtenu donnera une estimation des performances de l’arbre.

28.2.2 - C4.5
Algorithme développé par J.Ross Quinlan. La version intérieure s’appelait ID3, et est
encore utilisée dans quelques produits.
Nous allons étudier ici les différences entre C4.5 et CART étant donné les nombreuses
similitudes entre ces deux algorithmes.
28.2.2.1 - NOMBRE DE SORTIES D’UN NŒUD VARIABLE
Contrairement à CART qui génère des sorties binaires, C4.5 accepte plusieurs valeurs à
l’issue d’un nœud.
28.2.2.2 - METHODE DE DETERMINATION DE L’ORDRE DES

BIFURCATIONS
Au lieu d’utiliser l’indice de diversité comme méthode d’affectation des bifurcations, C4.5
utilise le gain informationnel total.
28.2.2.3 - ELAGAGE
C4.5 n’utilise pas d’ensemble de test, il élague son arbre à partir des données
d’apprentissage en considérant que le taux d’erreur réel sera sensiblement pire, ce qui le
conduit parfois, lorsque les nœuds comportent peu d’enregistrements, à supprimer des sous-
arbres complets.
28.2.2.4 - ENSEMBLE DE REGLES
C4.5 déduit de l’arbre de décision un ensemble de règles, qui facilite son interprétation.
Exemple :
Regarde le match et son équipe gagne et sort avec des amis alors bière
Regarde le match et son équipe gagne et reste à domicile alors soda
Regarde le match et son équipe perd et sort avec des amis alors bière
Regarde le match et son équipe perd et reste à domicile alors lait
En étudiant ces règles, on se rend compte qu’il est possible de simplifier, car le fait que son
équipe gagne ou perde n’influe pas sur le résultat qui est bière.
Une des nouvelles règles est donc
Regarde le match et sort avec des amis alors bière.

C4.5 aboutit ainsi à un arbre simplifié.

28.2.3 - CHAID
Algorithme publié en 1975 par J.A. Hartigan. Il est utilisé dans les progiciels tels que SPSS
et SAS.
Comme pour CART et C4.5, nous allons étudier les différences entre CHAID et les deux
algorithmes vus précédemment.
28.2.3.1 - DEVELOPPEMENT DE L’ARBRE
Tout d’abord, CHAID utilise pour choisir les bifurcations le test du chi-2, que l’on ne
détaillera pas ici.
Et enfin, contrairement aux autres il ne développe pas l’arbre complet, pour ensuite
l’élaguer, mais tente dès le premier passage de limiter sa croissance.

Les différentes étapes de mise en place sont :
Préparation des données,

Enrichissement des données,
Création de l’arborescence,
Validation de l’arborescence.
Il faut définir la nature, le format des variables et leur méthode de traitement. Ces variables
peuvent être catégoriques non ordonnées (exemple : situation de famille) ou catégoriques
ordonnées (exemple : tranches de revenus) ou encore continues.

28.3.2 - ENRICHISSEMENT DES DONNEES
L’enrichissement des données englobe différentes techniques afin de faciliter la lecture des
données pertinentes. Il est possible d'introduire une organisation en classes ou une typologie
ou encore des variables combinées.
L’organisation en classe se réalise par l’introduction de taxonomie (exemple : catégorie

socioprofessionnelle), c’est à dire un regroupement par type d’objet dont le niveau de détail
le plus fin n’est pas significatif pour l’étude.
Il est aussi possible d’introduire une typologie d’après certaines caractéristiques des
variables analysées (familles branchés, ).
Et enfin, la combinaison de variables élémentaires peut fournir de nouvelles informations

(exemple : revenu moyen).
28.3.3 - CREATION ET VALIDATION DE L’ARBORESCENCE
Selon l’algorithme choisi (voir paragraphe précédent).
Simplicité d’utilisation,
Bonne lisibilité,
Bonne adaptation aux données.
28.4.1 - SIMPLICITE D’UTILISATION
L’utilisation des produits conçus sur la technique des arbres de décision est très simple car
elle est très visuelle et très intuitive, ce qui la rend abordable pour les utilisateurs.
28.4.2 - BONNE LISIBILITE
La clarté du modèle résultant permet une validation rapide, contrairement à certaine

technique où il est impossible d'expliquer le résultat.

28.4.3 - BONNE ADAPTATION
Les arbres de décisions permettent de manipuler des variables continues, discontinues,

catégoriques et énumératives.
Mauvaise performance
Coût d’apprentissage
28.5.1 - MAUVAISE PERFORMANCE
Les arbres de décisions deviennent peu performants lorsqu’il y a beaucoup de classes. En

effet, ils risquent de devenir trop détaillés, ce qui leur fait perdre de leur lisibilité ou encore
d’aboutir à de mauvais classements
28.5.2 - COUT DE L’APPRENTISSAGE
Le fait de devoir calculer pour chaque nœud, le meilleur critère lors du premier passage puis
ensuite lors de l’élagage alourdit les calculs.

29 - LES RESEAUX DE NEURONES
29.1 - PRESENTATION
Le fonctionnement d’un réseau de neurones est inspiré de celui du cerveau humain. Il reçoit
des impulsions, qui sont traitées, et en sortie d’autres impulsions sont émises pour activer
les muscles.
Il existe deux types de réseaux :
à apprentissage supervisé où la réponse est connue

à apprentissage non supervisé où le réseau ne connaît pas le résultat.
Nous nous intéresserons ici aux réseaux à apprentissage supervisé. Le réseau est construit à
partir de cas connus (telles données en entrée doivent fournir tel résultat).
Les composants sont :
Le neurone formel,
Une règle d’activation,
Une organisation en couches,
Une règle d’apprentissage.
29.2.1 - NEURONE FORMEL
Le neurone formel calcule la somme pondérée par son poids de chaque entrée transmise par
le reste du réseau = Σ(Xi * Wi)
W1
X1
Xn
Wn
Figure 32 : le neurone formel

29.2.2 - REGLE D’ACTIVATION
A chaque neurone formel du réseau est associé une règle d’activation avec une fréquence T
et une fonction, généralement sigmoïde, qui a pour résultat d’activer ou non le neurone de
sortie.
si Σ(Xi * Wi) > seuil activation du neurone de sortie
W1
X1
Fonction Sortie
Xn
Wn
Figure 33 : activation du neurone
29.2.3 - ORGANISATION EN COUCHES
Afin de résoudre des problèmes de toute complexité, le réseau a une organisation en

couches. La couche d’entrée transmet ses résultats à la couche supérieure qui, ayant de
nouvelles données et de nouveaux poids retransmet ses données résultantes à la couche
suivante et ainsi de suite jusqu’à la couche de sortie qui fournit le neurone de sortie. On
appelle les couches intermédiaires les couches cachées.
W1
X1
U1
X2
Xn
Un
Wn
Couche Couches Couche

D'entrée cachés de sortie
Figure 34 : les différentes couches du réseau de neurone

29.2.4 - REGLE D’APPRENTISSAGE
La règle d’apprentissage permet au réseau d’évoluer dans le temps en tenant compte des
expériences antérieures. Les poids des connexions sont modifiés en fonction des résultats
précédents afin de trouver le meilleur modèle par rapport aux exemples donnés.

La construction d’un réseau de neurones est constituée des étapes suivantes :
Préparation des données,

Détermination des paramètres,
Phase d’apprentissage,
Phase d’optimisation,
Phase de test,
Phase d’exploitation.
Nous ne détaillerons que les trois premières étapes, les étapes suivantes ne présentant pas de
spécificité par rapport à une mise en place informatique classique.
La préparation des données consiste à déterminer les entrées et les sorties, constituer la base
d’exemples, coder les entrées et enfin optimiser le jeu de données.
29.3.2 - DETERMINATION DES ENTREES ET DES SORTIES
Il n’y a pas de règles en la matière, tout dépend du problème à traiter et des informations
disponibles.
29.3.3 - CONSTITUTION DE LA BASE D’EXEMPLES
Le choix des exemples conditionne, bien entendu les résultats. Le but étant d’expliquer un
phénomène. Si une action est positive dans 90 % des cas, ce n’est pas pour autant qu’il
faille prendre un échantillon contenant 90 % des cas positifs aussi. Mieux vaut équilibrer et
faire 50 / 50 afin de forcer le réseau à comprendre les 10 % négatifs.

29.3.4 - CODAGE DES ENTREES
Le codage des entrées est l’association des variables aux neurones. Ainsi une valeur
continue sera représentée par un neurone alors qu’une variable discrète prenant, par
exemple, les valeurs travailleur actif ou non actif sera codée par deux neurones.
29.3.5 - OPTIMISATION DU JEU DE DONNEES
Le jeu de données constitué à l’étape précédente, peut contenir soit beaucoup trop de
variables, qui alourdirait le travail d’apprentissage, soit des valeurs aberrantes qui
fausseraient les calculs. Il est donc important de retravailler cet échantillon.
29.3.6 - DETERMINATION DES PARAMETRES
Architecture : détermination du nombre de couches et du nombre de neurones de chaque

couche.
Fonction de sommation : définition de la nature de l’opérateur qui combine les poids des
Wi (somme, minimum, maximum, majorité, produit). La plus utilisée est la somme.
Fonction de transfert : détermination de la fonction à appliquer sur le résultat de la

fonction de sommation (sigmoïde, linéaire, gaussienne). La plus utilisée est la sigmoïde.
Fonction de normalisation : transformation de la sortie soit pour la rendre compréhensible

par l’utilisateur, soit pour la mettre dans des limites acceptables pour les couches cachées.
Fonction de compétition : détermination de la ou des sorties qui seront présentes à la

couche suivante (la plus forte, les deux plus fortes, …).
Calcul de l’erreur : calcul de l’écart entre la sortie donnée et la sortie calculée (erreur
moyenne, erreur absolue, erreur quadratique, sens de variation de l’erreur).

29.3.7 - PHASE D’APPRENTISSAGE
L’apprentissage consiste à descendre le réseau de façon itérative en ajustant les poids à

chaque passage selon le calcul d’erreur jusqu’à ce qu’il n’y ait plus d’amélioration. Pour
cela, un algorithme de rétropropagation de l’erreur est mis en œuvre.
Principe de l’algorithme de rétropropagation de l’erreur
- Initialiser la matrice des poids au hasard

- Choisir un exemple en entrée
- Propager le calcul de cette entrée à travers le réseau
- Calculer la sortie de cette entrée
- Mesurer l’erreur de prédiction par différence entre sortie réelle et sortie prévue
- Calculer la contribution d’un neurone à l’erreur à partir de la sortie
- Déterminer le signe de modification du poids
- Corriger les poids des neurones pour diminuer l’erreur
Le processus recommence ainsi, à partir du choix de l’exemple en entrée, jusqu’à ce qu’un

taux d’erreur minimal soit atteint.
Figure 35 : synoptique du réseau de neurones

Souplesse,
Bonne résolution,
Bonne adaptation aux données,
Outils disponibles.
29.4.1 - SOUPLESSE
Les réseaux de neurones sont capables de traiter une gamme très étendue de problème. Leur
résultat peut être une prédiction, une classification ou encore une analyse de clusters.
29.4.2 - BONNE RESOLUTION
Ils donnent de bons résultats, même dans des domaines complexes car ils sont beaucoup
plus puissants que les statistiques ou les arbres de décisions.
29.4.3 - BONNE ADAPTATION
Une fois les données codées, ils traitent aussi bien des variables continues qu’énumératives.
29.4.4 - OUTILS DISPONIBLES
Il existe de nombreux produits sur le marché intégrant la technique des réseaux de neurones
(4Thought, Saxon, Neural connection, Clementine, Intelligent Miner, SAS, etc.).
Codage des entrées,

Lisibilité,
Détermination de la taille,
Non optimalité,
Performance.

29.5.1 - CODAGE DES ENTREES
Toutes les entrées d’un réseau de neurones doivent se trouver dans un intervalle défini, en
général, entre 0 et 1. Ce qui entraîne des transformations, qui impliquent des traitements
supplémentaires, et risque de fausser les résultats.
29.5.2 - LISIBILITE
Les réseaux de neurones ne fournissent pas l’explication de leur résultat. Ce qui peut être
gênant si on cherche à comprendre un phénomène.
29.5.3 - DETERMINATION DE LA TAILLE
Afin que l’échantillon fournisse de bons résultats, sa taille doit être calculée en fonction du
nombre d’entrées, du nombre de couches et du taux de connexion. Ce qui entraîne une
augmentation du nombre d’exemples, qui ne sont pas toujours disponibles.
29.5.4 - NON OPTIMALITE
Le réseau proposé qui paraît optimal d’une façon globale, n’est pas toujours la meilleure
solution. En effet, plusieurs optima locaux ne donnent pas toujours la solution optimale en
totalité.
29.5.5 - PERFORMANCE
Le nombre de calculs à effectuer pour définir un réseau optimal peut être très consommateur
de puissance, ce qui peut donner de mauvaises performances à cette technique.
Les réseaux de neurones ont pour objectif la classification et la prédiction.

30 - MISE EN PLACE
Ce chapitre présente une démarche pour mettre en place un projet de Data Mining.
Nous prendrons, pour illustrer, l’exemple d’un courtier en assurances qui lance trois
nouvelles gammes.
30.1 - POSER LE PROBLEME

Avant d’engager une action, il faut d’abord bien définir le problème. Dans l’exemple
présent, le directeur veut savoir qui sont ces clients actuels et à quels clients il peut proposer
ses nouveaux produits.
30.2 - RECHERCHE DES DONNEES

Pour répondre à ces deux interrogations, il est nécessaire de rechercher les informations qui
donnent les caractéristiques des clients et les achats qu’ils ont effectués.
On peut retenir :
Pour les clients

l’âge
le sexe
la situation de famille
le nombre d’enfants
la catégorie professionnelle
les centres d’intérêts
la commune
la taille de la commune
le type d’habitation
Pour les produits achetés

le produit
la date
le montant
le type de paiement
Le choix des données étant fait, il faut déterminer les différentes sources. Certaines
proviennent du contrat (âge, sexe, produit, montant, etc.), d’autres de questionnaires
(centres d’intérêts) ou de base de données nationales (taille de la commune).

30.3 - SELECTION DES DONNEES
Certaines données, comme les centres d’intérêts, peuvent être difficile à récolter, tous les
clients ne répondant pas aux questionnaires. Le taux de réponse peut être estimé à 40 %.
Pour la sélection des données, on ne peut pas exclure les clients n’ayant pas répondu aux
questionnaires car cela fausserait les chiffres de l’étude, par contre, il faut se fixer certaines
règles pour limiter la taille de l’échantillon.
Ne pas prendre les clients qui n’ont pas effectué d’achats durant les trois dernières
années.
Prendre un enregistrement sur trois pour les clients ayant un montant d’achat total
supérieur à 20.000 FR.
Prendre un enregistrement sur dix pour les clients ayant un montant d’achat
inférieur à 20.000 FR.
A l’issue de cette sélection, nous nous trouvons en présence d’un échantillon, où le poids
des clients à fort potentiel a été augmenté, ce qui permettra de mieux analyser leur
comportement.
30.4 - NETTOYAGE DES DONNEES
Trois types de problèmes peuvent être rencontrés dans cet échantillon : les valeurs
aberrantes, les valeurs manquantes et les valeurs nulles.
Les valeurs aberrantes sont détecter par les méthodes statistiques classiques.
Les valeurs manquantes peuvent être remplacées par une moyenne nationale, exemple le
nombre d’enfants.
30.5 - ACTIONS SUR LES VARIABLES
Pour que les données soient exploitables, il faut maintenant agir sur certaines variables, par
des transformations monovariables ou multivariables.
Transformations monovariables :
Modification de l’unité de mesure pour avoir des valeurs comparables.

Transformation des dates en durées, par exemple, ancienneté du client.
Modification des données géographiques en coordonnées.

Transformations multivariables
Ratios
Fréquence
Tendances
30.6 - RECHERCHE DU MODELE
Cette étape consiste à extraire les facteurs pertinents et les présenter sous forme synthétique.
Dans notre exemple, les trois facteurs déterminants qui apparaissent sont l’âge, le nombre
de contrats et le chiffre d’affaires. A partir de ces facteurs, les clients sont rangés dans neuf
sous-classes.
C’est lors de cette phase que le ou les algorithmes de calcul seront choisit. Dans notre
exemple, un réseau de neurone a été construit afin de prédire la classe d’appartenance des
clients, puis cette information a été utilisé dans un arbre de décision pour une meilleure
formalisation.
30.7 - EVALUATION DU RESULTAT
L’évaluation du résultat permet d’estimer la qualité du modèle, elle est généralement

qualitative (facilité de compréhension du résultat) et quantitative (intervalle de confiance).
30.8 - INTEGRATION DE LA CONNAISSANCE
L’intégration de la connaissance consiste à implanter le modèle ou ses résultats dans le

système informatique de l’entreprise.
C’est de plus l’occasion, pour faire le bilan des étapes précédentes, qui ont pu faire
apparaître certains points à améliorer, qualité des données, collecte des données…

31 - CHOISIR LE BON OUTIL

Selon le problème posé, il faut choisir la technique ou les techniques qui s’appliquent aux
taches désirées.
Le tableau ci-dessous présente quelles techniques traitent quelles taches.
Regroupement
par similitude
Classification
Analyse des
Description
Estimation
Prédiction
clusters
Statistiques
√ √ √ √ √ √
normales
Analyse du
panier de la √ √ √ √
ménagère
Raisonnement
basé sur la √ √ √ √
mémoire
Algorithmes
√ √
génétiques
Détection de
√
clusters
Analyse des
√ √ √
liens
Arbres de
√ √ √ √
décision
Réseaux de
√ √ √ √
neurones
Tableau 56 : choisir le bon outil de data mining

31.1 - CARACTERISTIQUES INFORMATIQUES

Un outil de Data Mining doit :
Permettre des connexions aux bases de données afin de simplifier les manipulations
de données.
Etre performant, c’est à dire la précision et la rapidité des modèles.
Permettre des interfaces à des requêteurs ou à des outils OLAP, afin de visualiser les
données sans manipulations.
Plus de la moitié des entreprises américaines ont acheté un outil de datamining en 1997
(source IDC)
31.2 - GAMMES DE PRIX ET DE PUISSANCE
Le tableau ci-dessous présente les produits existants sur le marché en fonction de quatre
critères, les compétences requises, les techniques de modélisation, le matériel nécessaire et
le prix.
Simples Techniques de modélisation Complexes
1 MF Gros
Intelligent serveurs
Miner
Decision
SAS Series
Mineset
4Thought Clementine
150 KF
Knowledge Seeker
Datamind
SPSS
Predict
Alice
Scenario
5 KF
PC
Utilisateur Compétences requises Expert
Graphique 7 : marché des logiciels de data mining

31.3 - ADEQUATION DE L’OUTIL
L’outil doit être adapté à
La quantité de données,
La nature des données,
Nombre de relations,
La nature des relations.
31.4 - NIVEAU DE COMPÉTENCE
Le tableau ci-dessous classe les techniques par facilité de compréhension, facilité

d’apprentissage, application, généralité, utilité et disponibilité.
Facilité de Facilité Facilité

Généralité Utilité Disponibilité
Compréhension Apprentissage Application
Statistiques B B B B B A+
Analyse du
panier de la A A A+ D B B
ménagère
Raisonnemen
t basé sur la A- B B A- A- C
mémoire
Algorithmes
B- C- A- B+ C C
génétiques
Détection des
B+ B+ A- A- B- B
clusters
Réseaux
A- C B D B C+
bayésiens
Arbres de
A+ B+ A+ A A B+
décision
Réseaux de
C- B- A- A A A
neurones
Tableau 57 : niveau de compétence selon les techniques de data mining

32 - DATA MINING ET ETHIQUE
Il serait difficile de terminer cet exposé sur le data mining sans parler des problèmes
d'éthique.
En France, la loi du 24 Janvier 1978 oblige toute personne enregistrant des données sur les
individus à en faire une déclaration préalable auprès de la Commission Nationale
Informatique et Libertés (CNIL). Celle-ci émet un avis sur l'opportunité et la confidentialité
de l'enregistrement de ces données. Les personnes concernées ont, quant à elles, un droit de
consultation et de correction sur les informations mémorisées.
Cette loi présente l'avantage de préserver l'intimité des individus, là où les techniques de
data mining veulent aller dans le sens opposé !
Cependant, le développement d'Internet et son utilisation croissante à des fins commerciales

(et non plus universitaires comme au début) risque de bouleverser les règles. Ce réseau est
international et il semble difficile de mettre au point une législation commune dans les
années à venir. De plus, ces techniques sont récentes et en France, la technique précède
toujours le droit. Nous sommes donc loin de préserver l'intimité des individus dans le
domaine législatif.
Quelques sociétés se constituent déjà des fichiers d'individus, en mémorisant leurs goûts,
budgets, situations, etc… Elles adressent des listes non anonymes de 100 à 200 questions et,
en échange de la réponse, proposent des remises sur des achats de produits courants. Elles
mettent ensuite à disposition à la vente ces fichiers. Ceux qui les remplissent sont-ils
conscients de l'utilisation qui en sera faite ? Quelle pourrait être l'utilisation politique de ces
données ? Les clients sont classifiés par des techniques de data mining mais celles-ci ne sont
pas fiables à 100 %, alors quelles seront les conséquences pour les individus mal classés ?
Etant donnée l'omniprésence de l'informatique dans tous les domaines, quel est le niveau
acceptable qu'une société commerciale ne doit pas franchir pour respecter la vie privée des
individus ? Peut-on recueillir des informations privées à votre insu ?
Evidemment je laisse à chacun le soin de fournir ses propres réponses, mais il est probable
que ces questions se poseront. Aux Etats-Unis, suite à plusieurs incidents, une entreprise
trop entreprenante et investigatrice a été obligée de détruire une partie de ses fichiers sous la
pression de diverses sociétés de défense des consommateurs.
La difficulté sera de trouver le compromis entre ces problèmes et la demande

d'individualisation des utilisateurs.
La mise en œuvre du data mining posera sans aucun doute des problèmes
d'éthique, difficiles à résoudre dans un contexte mondial.

33 - OUVERTURE A INTERNET
Internet, et son petit frère à l’échelle de l’entreprise intranet, deviennent aujourd’hui des
éléments incontournables du système d’information. Le succès récent de cette
technologie relativement ancienne est du à l’apparition du World Wide Web (WWW) en
1989, permettant à un utilisateur d’accéder au réseau Internet à travers un navigateur
(browser). Ce dernier lui permet de visualiser les informations sous une forme
ergonomique, sans avoir besoin de connaissances en informatique.
Les pages visualisées ne sont pas stockées sur le poste client mais sont envoyées, à la
demande, par un serveur Web. Elles sont écrites en langage HTML (Hyper Text Markup
Langage) et contiennent du texte formaté, des liens vers d’autres documents ou d’autres
parties de la page présentée et des images.
33.1 - ACCES A DES PAGES STATIQUES

Affichage de rapports statiques. L’outil d’aide à la décision doit permettre de générer les
rapports sous une forme HTML, afin de les visualiser depuis un navigateur et de les
mettre à disposition des autres utilisateurs, par exemple sur un serveur d’entreprise,
Intranet. Les pages définies sont alors des pages statiques, contenant à la fois la
présentation et les données et non mises à jour dynamiquement. Afin de présenter aux
utilisateurs des informations récentes, l’outil doit permettre de régénérer
automatiquement les rapports à intervalles réguliers (par exemple tous les jours) ou
après chaque chargement de données dans le Data Warehouse.
Automatisme du lien entre l’outil d’aide à la décision et le serveur Web. Le serveur Web
devient ici un serveur d’entreprise, permettant simplement de stocker des documents et
de les mettre à la disposition de toute personne possédant un navigateur Internet et ayant
le droit d’accéder à ces pages. Pour que cette solution soit viable, il faut que l’outil soit
capable de mettre automatiquement les pages HTML à disposition sur le serveur Web.
Même si elle apparaît sommaire, cette fonctionnalité peut être assez intéressante. Par
exemple, dans le cadre d’une entreprise et d’un réseau intranet, les rapports élémentaires
peuvent être mis à la disposition de l’ensemble des utilisateurs qui n’ont ainsi pas à
maîtriser et à employer un outil d’aide à la décision pour accéder aux informations qui
les intéressent.
Mais, au delà de ces fonctionnalités statiques, il est également nécessaire d’accéder

directement aux données à travers le navigateur et de générer des pages HTML
dynamiquement, à la demande de l’utilisateur.

33.2 - ACCES A DES PAGES DYNAMIQUES

Au delà de l’envoi de pages statiques, le serveur Web est aujourd’hui capable de créer
dynamiquement des pages, à la demande de l’utilisateur. Ceci peut se faire à travers des
scripts CGI (Common Gateway Interface). Ils vont alors se charger d’interroger la base
de données. Des interfaces plus évoluées sont proposées par Netscape avec NSAPI et
par Microsoft avec ISAPI. Elles sont plus performantes et, contrairement à CGI, ne
nécessitent pas la création d’un processus séparé à chaque exécution de script. Par
exemple, ISAPI fait appel à des DLLs et non à des exécutables. Plus performantes, elles
sont cependant moins fiables car un problème survenant lors de l’exécution d’un script
risque de provoquer l’arrêt du processus qui est alors également celui du serveur Web
(on parle de démon HTTP).
D’autre part, le langage Javascript permet de joindre des programmes à des pages
HTML, afin de soulager le serveur et d’exécuter certains programmes au niveau client. Il
peut s’agir, par exemple, de programmes permettant de contrôler si l’utilisateur a bien
renseigné tous les champs obligatoires dans un formulaire, avant de l’envoyer vers le
serveur, afin d’éviter des aller et retours inutiles.
Enfin, le langage Java permet de créer de petites applications (appelées des applets) qui
pourront être chargées directement sur le poste client et exécutées à partir du navigateur,
il faut pour cela que ce dernier soit compatible Java.
Au delà du simple partage de rapports, la génération de pages dynamiques est une

caractéristique indispensable. L’utilisateur doit pouvoir formuler ses requêtes et
récupérer les résultats à travers son navigateur Internet.
D’autre part, il est nécessaire de lui laisser manipuler les données, par exemple dans le
cas d’outils permettant d’effectuer de l’analyse multidimensionnelle, de naviguer dans
les données.
Au delà d’applications “ clé en main ” mises à la disposition de l’utilisateur et lui

permettant de manipuler les données dans le cadre qui lui a été imparti, ces outils
devraient permettre à l’utilisateur de définir ses requêtes aussi librement qu’il le fait
avec l’outil, de même pour la valorisation des résultats. Ceci permet alors de mettre à la
disposition de l’ensemble des utilisateurs les données de l’entreprise, évite les coûts et
les efforts d’installation et de mise à niveau des produits, l’application étant alors basée
sur le serveur.

33.3 - LE WEB ET L'AIDE A LA DECISION
Selon le Data Warehouse Institute, 82% des accès à un Data Warehouse s'effectuent
aujourd'hui en Client/Serveur "classique", 38% par un intranet et 8% via l'Internet. Ceci
confirme que le mariage entre le Web et l'aide à la décision est non seulement
souhaitable, car il permet d'élargir la cible des utilisateurs concernés avec une
problématique de déploiement amoindrie, mais aussi opérationnel dès aujourd'hui, même
si la puissance fonctionnelle et la qualité de service du Web sont plus faibles qu'en
Client/Serveur. L'analyse de ces chiffres indique également la complémentarité du
Client/Serveur et du Web, le premier étant a priori mieux adapté aux utilisations
intensives et le second pour toute autre utilisation que le Client/Serveur ne peut
satisfaire pour des raisons de coûts de déploiement ou d'insuffisante homogénéité de
l'infrastructure.
Requêteurs et outils OLAP diffèrent dans leur capacité à s'intégrer au monde du Web.
OLAP s'adapte naturellement au Web par la structure de navigation prédéfinie qu'il
propose, principe conforme au concept hypertexte du Web. Malgré tout, les versions
Web existant à ce jour représentent encore une légère régression fonctionnelle par
rapport à leur version Client/serveur, mais ces différences s'amenuisent de jour en jour.
Côté requêteur, l'intégration au Web est plus complexe à réaliser : laissant beaucoup
d'autonomie à l'utilisateur, ces outils disposent d'une interface cliente assez sophistiquée.
HTML montre alors ses limites fonctionnelles du côté de
l'interface homme/machine et beaucoup d'éditeurs proposent de ce fait des versions

bridées de leur outil, pour l'exécution de requêtes prédéfinies. Pour aller au delà, il est
souhaitable de rapatrier sur le poste client une partie de l'outil, par des mécanismes
comme Java, les plug-ins, ou encore Active X.
Certains éditeurs, à l'instar de Brio qui a choisi le plug-in, proposent ces architectures ou
sont en passe de le faire. Mais, chacune d'entre elle n'est pas sans inconvénient, en terme
de consommation de bande passante et d'absence d'offre opérationnelle côté Java et de
problèmes de déploiement qui subsistent du fait de la recopie de code côté client pour
les plug-ins ou Active X.

34 - CONCLUSION
34.1 - LES OUTILS D’AIDE A LA DECISION
Notre étude, dans chacune de ses parties, nous a amenés à isoler chaque technique de l’aide
à la décision afin d’en montrer ses caractéristiques, sa mise en œuvre, son apport au
processus de prise de décision.
Ainsi, en conclusion, nous rassemblons les apports de ces techniques.
Le data warehouse permet au décideur de travailler dans un environnement informationnel,

référencé, homogène, historisé. Cette technique l’affranchit des problèmes liés à
l’hétérogénéité des systèmes informatiques, l’hétérogénéité des différentes définitions de
données issues de l’historique de l’organisation.
L’Analyse multidimensionnelle permet d’extraire du data warehouse, une connaissance

quantitative de l’activité de l’organisation selon les dimensions ou les aspects qui
préoccupent le décideur à un instant donné. L’explication d’un résultat, à un niveau
d’agrégation donné, s’explique par les résultats du niveau d’agrégation inférieur.
Le Data Mining permet d’extraire du Data Warehouse deux types de connaissances : l’une,
explicative des résultats obtenus par l’analyse multidimensionnelle ou explicative
d’hypothèses relatives au contenu informationnel du data warehouse, l’autre, nouvelle,
porteuse éventuellement de nouvelles possibilités d’action.
Le Tableau de Bord a été juste évoqué; il est à la frontière du Data*. Cet outil se retrouve
dans tous les systèmes de Pilotage ( Opérationnel ou Décisionnel ). warehouse. Toutefois,
appliquée sur un data warehouse, la fonction Indicateur du tableau de bord peut intégrer un
éventail plus riche de variables ou être rapprochée d’un référentiel plus large dans le temps.
Aujourd’hui, ces techniques font l’actualité des presses spécialisées; spécialisée en

informatique, bien sûr, mais aussi dans les rubriques «Informatiques» des presses
spécifiques à chaque type d’activité. Les applications décisionnelles dans le Marketing
nourrissent la majorité de ces articles de presse.
34.2 - LES PERSPECTIVES POUR L’ENTREPRISE

Reconsidérant l’entreprise dans son environnement ( cf schéma des Forces de M.Porter ci-
dessous ), nous percevons les nouvelles possibilités
d’alimentation des systèmes décisionnels à partir des « data warehouse »
de fournisseurs ou de clients
de différents observatoires et groupements professionnels

d’administrations
de rediffusion d’information
auprès de ces mêmes agents qui ont alimenté le DW de l’entreprise
de connexion des data warehouse entre eux sous forme
d’un réseau de data warehouse répartis à la surface de la terre, disposant d’un
seul dictionnaire de données et de méta-données. ( cas d’une multinationale ou
par exemple un organisme de l’ONU).
de convergence d’un réseau de data warehouse répartis à la surface de la terre
vers un data warehouse « Central ».
Concurrence
Produits de
Pays
Substitution
Etranger Nouveaux Entrants
France Concurrence
Fournisseurs Entreprise Clients Filière

Insee
Consommation Démographique
C.C.I. Social Secteurs d'Activités
Santé Economique
Observatoir
Environnement
e
Nous pouvons penser que les perspectives d’échanges d’information ou de connexion entre
les systèmes décisionnels au travers du WEB vont s’auto-générer : c’est à dire, « entrer
dans le processus d’interconnexion » générera de nouvelles opportunités stratégiques (
alliances, rachat, réseau d’entreprises) qui, réalisées, amèneront de nouvelles architectures
décisionnelles et permettront d’ouvrir d’autres perspectives.
34.3 - CONCLUSION
De ces possibilités, nous n’avons pas aujourd’hui suffisamment d’expériences connues , si
toutefois, il en existe. Ainsi, à ce stade de la réflexion, nous passons le témoin de ce travail
aux prochains auditeurs de valeur C en informatique décisionnelle. A eux, de rendre
compte, d’analyser et d’expliquer ce dont ils seront témoins dans les perspectives WEB-
Décisionnel que nous commençons à entrevoir à ce jour.

35 - GLOSSAIRE
Agent intelligent Un agent est une entité logicielle capable d'agir sur elle-même et sur
son environnement. Il dispose d'une représentation partielle de cet
(Knowbot)
environnement et peut communiquer avec d'autres agents. Il poursuit
un objectif individuel et son comportement est la conséquence de ses
observations, de ses compétences, et des interactions qu'il peut avoir
avec d'autres agents et son environnement.
Alerteur Mécanisme se déclenchant automatiquement et envoyant des

informations à une application (alerteurs des SGBD relationnels), ou
une information visuelle à l’utilisateur (alerteurs dans les outils
clients du Data Warehouse).
API Interface de Programmation d'Applications. Interface permettant à

Application un langage de programmation d'accéder à un service de manière
Programming Interface programmée.
On parle de l'API de Windows ou de celle de SQL Server. L'API de

Windows va aider les applications à gérer tous les éléments
graphiques Windows (fenêtres, contrôles, menus).
Arbre de décision Technique visuelle permettant de diviser des données en groupes

basés sur les valeurs des variables. Elle permet de déterminer les
variables significatives pour une variable donnée.
Base de données Base dont les données sont dispersées sciemment (distribuées) sur
distribuée plusieurs serveurs liés par un réseau.
Une application cliente peut avoir besoin d'accéder aux données de

X serveurs simultanément.
On dit aussi Base Répartie lorsque c'est le SGBD qui pilote les accès
Base de données locale Base de donnée située sur le poste client, contenant des données
propres à l’utilisateur, voire des données partagées répliquées.
Batch Dans les outils de Data Mining ou d’infocentre, le batch permet

d’explorer de grandes masses de données (requêtes lourdes) à des
heures creuses, sans trop solliciter le poste de l’utilisateur, voire à
planifier l’exécution des requêtes (module souvent appelé
scheduler).

Catalogue Dans certains outils clients du Data Warehouse, c’est la structure

permettant à l’utilisateur de travailler sur une vue logique et orientée
métier des données qu’il souhaite visualiser.
Catégorie Valeur prise par une variable discrète.
Classification Deux types de classification existent :

• soit classer des éléments dans des classes connues (par exemple
les bons et les mauvais clients). On parlera aussi d’apprentissage
supervisé.
• soit de regrouper les éléments ayant des comportements similaires
dans des classes, inconnues au départ. On parlera alors de
clustering, de segmentation ou d’apprentissage non supervisé.
Client Poste de travail Utilisateur : machine déportée qui supporte le

dialogue interactif avec l'utilisateur ou les applications, mais aussi
les outils de présentation, d’infocentre et de développement.
Clustering Cf. classification.
Continue variable pouvant prendre un nombre illimité de valeurs (par

(variable) exemple, un réel).
Data Mining Définition un peu floue car récupérée par beaucoup d’éditeurs
d’outils d’aide à la décision. A l’origine, le data mining
correspondait à toutes les technologies avancées susceptibles
d’analyser l’information d’un Data Warehouse pour en tirer des
tendances, pour segmenter l’informations, ou pour trouver des
corrélations dans les données. Aujourd’hui, le terme a tendance à
caractériser tous les outils d’aide à la décision, le " mineur " étant
soit l’outil lui-même soit l’utilisateur.
Data Mining Aussi connu sous le nom de KDD (Knowledge Discovery Data), les
(outils de) outils de data mining permettent d’extraire de la connaissance des
données en découvrant des modèles, des règles dans le volume
d’information présent dans les entreprises.
Data Surfing Possibilité donnée à l’utilisateur de naviguer de manière

ergonomique et intuitive dans un modèle multidimensionnel.
Data Warehouse « Entrepôt de données ». Base de données spécifique au monde

décisionnel et destinée principalement à analyser les leviers
« business » potentiels.
D’après Bill Inmon, un Data Warehouse est intégré, orienté sujet et

contient des données non volatiles et historisées
Data Warehousing Processus de mise en œuvre d’un projet de Data Warehouse.
DBA Personne garante de la cohérence des données, des performances du

Data Base système, de sa sécurité... Pour les outils disposant d’un catalogue,
Administrator c’est le DBA qui le mettra en œuvre.
DDE Echange Dynamique de données. Protocole de Windows et d'OS/2

Dynamic Data Exchange PM qui établi un lien permanent entre 2 applications. Par exemple,
'Copier' un tableau Excel, le 'Coller avec Liaison' dans un document
Word; Le document sera remis à jour dès que le tableau évolue. Les
2 applications doivent être actives en même temps.
Il permet l'envoi de données et de commandes d'un logiciel

demandeur (client) à un logiciel fournissant les services (serveur).
Un applicatif client DDE pourra ainsi complètement piloter
l'applicatif serveur.
Découverte de règles Les outils permettant de découvrir des règles vont partir d’une
hypothèse et la tester au travers de requêtes et de statistiques puis la
modifier en fonction des résultats. Ces systèmes vont scruter la base
de données, forger des hypothèses et, si elles sont vérifiées, les
remonter à l’utilisateur.
Dépendante (variable) Variable cible de l’analyse de Data Mining, notamment pour les
arbres de décision.
Détection de déviations Des outils permettent de détecter sur un ensemble de données celles
présentant des déviations par rapport à des normes et des indicateurs
de référence décrits antérieurement.
Dimension Axe d’analyse associé aux indicateurs ; correspond le plus souvent

aux sujets d’intérêts du Data Warehouse ; exemple : dimension
temporelle, dimension client...
Discrète Variable prenant ses valeurs (cf. catégorie) dans un ensemble limité.
(variable)
DLL Bibliothèque de liens dynamiques. Sous Windows, bibliothèque de

Dynamic Link Library fonctions propres à une application. Elles peuvent être appelées par
d'autres applications et sont chargées à la demande.

Données creuses Dans une structure multidimensionnelle, les données creuses sont
des intersections de dimensions pour lesquels un fait ne s’est pas
produit (exemple : pas de vente de produit X à la date T) ou n’est pas
physiquement stocké (exemple : pas d’agrégations physique associée
aux vente de produits par gammes et par mois).
Drag’n’drop 'Tirer et Laisser tomber'. Dans un environnement graphique, consiste

à 'prendre' un objet en cliquant dessus en maintenant le bouton
enfoncé, puis à le déplacer (Drag) avec la souris jusqu'à un autre
endroit où, en relâchant le bouton, on dépose (Drop) l'objet
transporté.
Drill across Mécanisme de navigation dans une structure multidimensionnelle. Il

permet d’analyser une même métrique sur des axes d’analyse
différents (ex : ventes par période, puis par produit).
Echantillon Ensemble de données tiré, aléatoirement ou non, du Data Warehouse

et permettant d’effectuer des tests et des recherches sur des volumes
restreints.
EIS Executive Information System (littéralement, système d’information

Executive Information des cadres). Environnement de présentation de tableau de bord
Systems présentant de manière synthétique et graphiques les performances
d’une activité (ex : santé d’une entreprise, bilan des ventes...).
Element Les données étudiées dans un Data Warehouse se décomposent en

lignes et en colonnes. Chacune des lignes représente un élément de
la base de données, un individu.
Fait Donnée numérique servant de base à la définition des indicateurs

dans un modèle multidimensionnel. Attention, ce terme est parfois
utilisé dans la littérature pour décrire plus généralement tout
indicateur.
Forecasting Technique consistant à prévoir le comportement d’une variable par

rapport à ses attitudes passées.
Génétique Un algorithme génétique est un algorithme lent, représentant les

(algorithme) modèles comme des gènes et des opérateurs génétiques et les faisant
évoluer soit par mutation (un gène au hasard est remplacé), soit par
cross-over (la place de deux sous-arbres est échangées).
Il est surtout utilisé pour optimiser les paramètres associés à des
outils de prédiction ou de classification.

Groupware Logiciel permettant à un groupe de personnes de mener des actions

communes ou synchronisées dans un cadre commun.
Le groupware est fondé sur cinq technologies de base.
- la gestion de documents multimédia
- le workflow
- le courrier électronique
- la gestion de conférences
- la planification des réunions.
GUI Interface Graphique pour Utilisateur, ou IHM.

Graphical User
Interface Windows, Presentation Manager, X/Motif en sont
Hétérogénéité Caractère d’un système global intégrant plusieurs types de machines

ou de SGBD. Dans un monde parfait, le système hétérogène, très
souvent distribué, doit être transparent pour l’utilisateur afin
d’intégrer automatiquement les systèmes existants d’une entreprise.
Hypercube Cube à n dimensions. Structure sur laquelle repose la plupart des

outils multidimensionnels.
Indicateur Information permettant de mesurer la performance de telle ou telle

activité de l’entreprise (ventes, gestion des stocks...). La plupart du
temps, cette information est numérique (ex : chiffre d’affaires,
quantité en stock...).
Induction Méthode consistant à tirer une conclusion d’une série de faits. Cette
conclusion ne sera jamais sûre à 100 %.
Intégrité Ensemble de contraintes appliquées aux mises à jour d’une base de

donnée permettant de garantir la cohérence des données. Ces
contraintes peuvent être des listes de valeurs à respecter (non nullité
et intégrité de domaine) ou bien des liens entre des tables (intégrité
référentielle). Par exemple, une commande doit forcément référencer
un client : le numéro de client inséré dans une ligne de la table
commande doit exister dans la table client.
Jointure Rapprochement entre deux tables par comparaison de valeurs

communes, sur la base d’un attribut commun.

Jointure externe Jointure préservant les lignes d’une première table, même si
l’attribut de jointure n'apparaît pas dans la seconde. .
MDI Type d'interface où une fenêtre principale (Workplace), dans

Multiple Document laquelle sont imbriquées, des fenêtres secondaires gère toutes les
Interface actions possibles. Les Gestionnaires de Programme et de Fichiers de
Windows en sont des exemples connus.
Messagerie électronique Structure de base assurant les fonctions de communication

(E-mail) d'entreprise.
Interpersonnelle : communication entre utilisateurs
Interapplicative : entre applications
Applications groupware : entre groupes de travail
Méta-données « Donnée décrivant une donnée ».
Métabase Ensemble de tables systèmes utilisées par les SGBD pour stocker la
description des objets utilisateurs (tables, vues, droits, procédures
stockées, ...) d’une base
Métrique Indicateur. Parmi les indicateurs pertinents, certains distinguent les

faits, stockés physiquement dans la base décisionnelle, des
métriques, dérivées de ces faits.
Middleware Le logiciel du centre : infrastructure logicielle permettant de rendre

l’architecture Client/Serveur la plus transparente possible.
Dans un contexte décisionnel, il est situé entre les outils d’aide à la

décision et la base de données décisionnelle. Un bon middleware
permet d’avoir indépendance entre ces deux types de composants
Modèle dimensionnel Technique de modélisation consistant à modéliser une base

(ou multidimensionnel) décisionnelle à partir de l’identification des faits à analyser et des
dimensions d’analyses qui leur sont associées
Modèle en étoile Technique de modélisation dimensionnelle, consistant à créer

physiquement ce modèle sur une base de données relationnelle. Ce
modèle distingue physiquement les tables de faits des tables de
dimensions
Modèle en flocon (ou Technique de modélisation dimensionnelle, dérivée de la

snowflake) modélisation en étoile. Dans ce modèle, les tables de dimensions y
sont dénormalisées, c’est à dire dénuées de redondances.

Modèle relationnel Technique de modélisation consistant à modéliser une base de

données en la décomposant en entité et en relations corrélant ces
entités
MOLAP Caractérise l’architecture nécessaire à la mise en place d’un système

Multidimensional On multidimensionnel en s’appuyant sur les bases de données
Line Analytical multidimensionnelles
Processing.
MPP Architecture matérielle faisant collaborer plusieurs processeurs

Massively Parallel (plusieurs centaines) possédant chacun sa propre mémoire.
Processing
Multidimensionnel Base de données dédiée au décisionnel, stockant les données sous la

(SGBD) forme d’un tableau multidimensionnel. Ces SGBD sont une
alternative aux SGBD relationnels. Voir aussi SIAD
Nearest Neighbor Méthode du plus proche voisin utilisée pour faire de la classification
(ou Knn) supervisée. Elle consiste à examiner les éléments, dont la classe est
connue, proches de l’élément dont on veut déterminer la classe.
ODBC Interface d’accès aux SGBD (API + langage SQL) définie par
Open DataBase Microsoft en 1992 et basée sur le standard CLI. Du fait de son
Connectivity succès auprès des utilisateurs et des éditeurs, ODBC est devenu un
standard de fait. Il permet d’accéder à des SGBD d’éditeurs
différents en utilisant la même interface de programmation. Plusieurs
niveaux (Level 1 et Level 2) existent dans l’API correspondant aux
niveaux de fonctionnalités.
OLAP Caractérise l’architecture nécessaire à la mise en place d’un système

On Line d’information décisionnel. S’oppose à OLTP (On Line Transaction
Analytical Processing Processing), adressant les systèmes d’information transactionnels.
OLAP est souvent utilisé pour faire référence exclusivement aux
bases de données multidimensionnelles. En effet, le concept a été
formalisé par le Dr Codd, sous la forme de douze règles, décrivant
un modèle idéal d’analyse d’information. Il a été montré depuis qu’il
a été possible de respecter ces règles indépendamment de la structure
de stockage utilisée.
De plus en plus, le terme est souvent utilisé pour désigner plus

généralement le décisionnel dans ses aspects techniques.

OLE Liaison et incorporation d'objets. Protocole Microsoft qui permet la

Object Linking and création de document composites ou la communication programmée
Embedding entre application (OLE Automation). Un document composite fait
référence aux diverses applications qui ont permis de composer le
document. Il est possible de visualiser alors des documents sans
posséder le logiciel qui les a engendrés.
Optimiseur L'optimisation des questions est un aspect tout à fait central des
systèmes relationnels; La requête SQL est transformée en une
succession d'opérateurs relationnels (restriction, projection, jointure,
union, ...); L’optimiseur est un composant logiciel chargé de choisir
l'ordre dans lequel ces opérations vont être exécutées.
Passerelle 1. Matériel d’interconnexion de réseaux locaux employant des

protocoles de haut niveau différents.
2. Logiciel de traduction situé sur un serveur et permettant à deux

applications d’interfaces différentes de dialoguer.
Passthru (mode) Mode de communication particulier offert par certaines API qui
permettent de passer le SQL directement au SGBD cible sans tenter
de l’analyser. Ce mode permet au développeur d’applications
d’utiliser les spécificités des SGBD.
Poste Client Poste de travail Utilisateur : machine déportée qui supporte le

dialogue interactif avec l'utilisateur ou les applications, mais aussi
les outils de présentation, d’infocentre et de développement.
RDA Modèle de Client/Serveur. La partie concernant la gestion des

Remote Data données est assurée par la composante serveur. La partie cliente
management prend en charge la présentation, mais aussi la totalité de la logique
applicative. Dans ce modèle, l'utilisation d'un système de gestion de
base de données relationnelle sécurisé, permettant de préserver la
cohérence, la permanence et l'intégrité des bases de données, est
nécessaire. L'inconvénient de ce modèle est principalement qu'il
nécessite des flux élevés sur le réseau (ensemble de requêtes SQL et
récupération de résultats de celles-ci). Par ailleurs, il impose de
décentraliser une partie importante de l'application sur le poste client
et par conséquent celui-ci devra être puissant.

Référentiel Structure de stockage des méta-données. Un référentiel fédère ces

méta-données, contrairement aux catalogues, qui sont en général
spécifiques à chaque outil. On distingue le " Data Warehouse
Repository ", fédérant les méta-données de la base décisionnelle, de
" l’Enterprise Repository ", qui inclue dans la théorie toutes les
méta-données de l’entreprise, aussi bien transactionnelles que
décisionnelles
Relation causale Relation de cause à effet entre des variables. Ainsi, la modification
d’une variable A pourra entraîner la modification d’une variable B.
Requête C'est une demande envoyée au gestionnaire de Base de Données

serveur. Si celui-ci permet la gestion des données, le langage utilisé
est le SQL. Dans une contexte d’infocentre, l'exécution des
questions sur un serveur est le plus souvent interprété.
Requêteur Outil permettant à un utilisateur de générer des requêtes SQL et de

les envoyer à un serveur de données relationnel.
Réseau Ensemble des moyens qui permettent à des ordinateurs de

communiquer entre eux, quelle que soit leur localisation
géographique. Dans le cas où le dialogue entre le client et le serveur
concernerait l’accès aux données, l'information transitant sur le
réseau est la requête SQL, destinée au SGBDR, qui retourne les
tuples résultats.
Réseau neuronal Processus opaque permettant à partir de valeurs en entrée de

découvrir une valeur en sortie.
Les réseaux neuronaux sont constitués de neurones, aussi appelés

nœuds, et d’interconnexions entre ces nœuds, liens permettant
d’envoyer des signaux de neurone à neurone. Un réseau de neurone
a pour caractéristique de pouvoir apprendre et mettre à profit son
expérience pour ajuster le modèle trouvé en fonction, par exemple,
de l’arrivée de nouveaux éléments.
ROLAP Caractérise l’architecture nécessaire à la mise en place d’un système

multidimensionnel en s’appuyant sur les technologies relationnelles.
Relational On Line
Analytical Processing
Segmentation Cf. classification

Serveur Composant logiciel et/ou matériel assurant la disponibilité, la

distribution, le service transactionnel de l'information. Il gère le
partage, la sécurité et la cohérence de l'information.
Il offre ses services à des Clients avec lesquels il communique par le

Réseau.
SGBDR On dialogue avec le SGBDR grâce à des requêtes écrites en SQL,

Système de Gestion de langage assez bien standardisé.
Base de Données
Relationnelle Les SGBDR (certains disent Serveur de bases de données) les plus
avancés disposent de mécanismes de gestion des contraintes
d'intégrité appelés les Triggers, et aussi de capacité de traitements
liés aux données: les Procédures Stockées.
SIAD Environnement permettant de stocker et de structurer l’information

Système Interactif décisionnel. Ce terme est souvent utilisé pour identifier les bases de
d’Aide à la Décision données multidimensionnelles. L’arrivée des concepts de Data
Warehouse fait perdre de l’importance à ce terme, qui fait fortement
référence à un type spécifique de technologie (et qui n’a pas
d’équivalent en anglais).
SMP Architecture matérielle faisant collaborer plusieurs processeurs

Symmetric Multi (quelques dizaines) sur une seule mémoire partagée.
Processing
SQL Langage de Requête Structuré. Le langage SQL est un standard

Structured Query défini par l'ANSI et l'ISO. Il est dérivé de l'algèbre relationnel et de
Language SEQUEL (System R74). Il constitue aujourd'hui le plus petit
commun dénominateur des langages du marché.
Statistiques Les techniques statistiques sont des techniques mathématiques

permettant de recueillir et d’analyser des données.
Système distribué (ou De façon générale, un système réparti (ou distribué) est un ensemble
réparti) de machines qui peuvent échanger des informations par
(en anglais, distributed) l’intermédiaire d’un réseau de communication. De plus, une
architecture répartie (ou distribuée) se définit par un ensemble de
stations de travail utilisables simultanément par des usagers.
Il n’existe qu’un seul terme anglais pour définir ce type de système :

" distributed ".

TCP/IP Transmission Control Protocol/Internet Protocol: Protocole de

communication permettant l’interconnexion de réseaux hétérogènes.
TCP/IP a été défini pour le compte de DOD (Department Of

Defense) dans les années 1970. Il correspond aux couches paquets
(3) et transport (4) de l'OSI. TCP/IP est devenu un standard de fait,
supportés par les réseaux locaux (Lan Manager, Netware),
permettant d’accéder aux machines Unix, et aux systèmes
propriétaires.
TCP, service de transport orienté connexion, correspond aux

niveaux 4 et 5 du modèle OSI. IP, assure l’interconnexion et
correspond au niveau 3.
Théta-jointure Jointure complexe dont l’opérateur de comparaison n’est pas

l’égalité.
Variable Les données étudiées dans un Data Warehouse se décomposent en

lignes et en colonnes. Chacune des colonne représente une variable,
une propriété des éléments considérés.
Visualisation Outil permettant de visualiser de manière graphique les relations

(outil de) entre les données.

36 - INDEX
Connaissances (Recherche)....................................................131
Conseiller électronique...........................................................186
1 Construction.............................................................................82
Contenu informatif ...................................................................53
12 Règles d’OLAP ...................................................................99 Corrélation .............................................................................132
Couche cachée........................................................................201
Covariance .............................................................................132
A Croisement .............................................................................181
Cross-over ..............................................................................181
Abduction ..............................................................................133
Accès........................................................................................84
Acquisition...............................................................................83 D
Acte économique .....................................................................53
Activités ...................................................................................56 Data Mart .................................................................................96
ADN.......................................................................................177 Data mining
Agent intelligent.....................................................................185 accès décisionnel................................................................84
Agent négociateur ..................................................................186 définition ..........................................................................129
Agent vendeur........................................................................186 méthodologie....................................................................141
Agglomération .......................................................................172 présentation ......................................................................128
Agrégation .....................................................................107, 172 statistiques........................................................................130
Aide à la décision.....................................................................40 tâches................................................................................135
Algorithme de rétropropagation .............................................204 techniques ........................................................................154
Algorithmes génétiques..................................................156, 177 Data Surfing ...........................................................................109
Amplitude ..............................................................................131 Data Warehouse .......................................................................11
Analyse des clusters ...............................................................137 Décision ...................................................................................25
Analyse des liens....................................................................155 Décision satisfaisante ...............................................................37
Analyse du panier de la ménagère..................................154, 157 Découverte de connaissances dirigée .....................................152
Analyse préalable...................................................................130 Découverte de connaissances non dirigée ..............................146
Arbre de décision ...................................................................193 Déduction...............................................................................134
Arbres de décision..........................................................135, 155 Descendants ...........................................................................179
Architecture .............................................................................78 Description.....................................................................135, 137
Articles virtuels......................................................................161 Détection automatique de clusters..........................................154
Axe.........................................................105, 106, 107, 108, 118 Diagnostic externe....................................................................56
Diagnostic interne ....................................................................58
Dimension ......................................100, 106, 107, 108, 109, 112
B Dissociation............................................................................161
Distance..................................................................................167
Base de compréhension............................................................55
Distance interdécile................................................................131
Base de faits .............................................................................54
Distance interquartile .............................................................131
Bilan.......................................................................................130
Donnée ...............................................................................72, 88
Donnée agrégée........................................................................77
C Donnée détaillée.......................................................................76
Donnée historisée...............................................................75, 78
C4.5........................................................................................194 Données (préparer).................................................................143
CART.....................................................................................194 Drill up and Down..........................................100, 105, 108, 109
Case Based Reasoning ...........................................................165 Droit .......................................................................................213
Causalité ................................................................................132
CBR .......................................................................................165
E
Cellule....................................................................................106
Cellules creuses......................................................................109
Ecart absolu moyen ................................................................131
Cercle vertueux ......................................................................140
Ecart type ...............................................................................131
CHAID...................................................................................194
Echelle de préoccupation .........................................................27
Chromosomes ........................................................................178
EIS ...........................................................................................62
Classification .........................................................................135
Entreprise .................................................................................12
Clusterisation .................................................................135, 137
Environnement .........................................................................21
Clusters ..................................................................................171
Espace de résolution.................................................................34
CNIL ......................................................................................213
Estimation ......................................................................135, 136
Coefficient de corrélation.......................................................132
Ethique ...........................................................................187, 213
Combinaison ..........................................................................168
Etude stratégique......................................................................87
Conception...............................................................................86
Evaluation ..............................................................145, 153, 178
Confusion...............................................................................132
Evaluer...................................................................150, 162, 176

N
F Navigation......................................................102, 105, 108, 120

Neurone formel ......................................................................200
Fitness ....................................................................................179 Niveau de confiance ...............................................................162
Fonction de compétition ........................................................203 Niveau de support ..................................................................163
Fonction de normalisation......................................................203 Niveaux de représentation ........................................................32
Fonction de sommation..........................................................203
Fonction de transfert ..............................................................203
Fréquence...............................................................................162 O
OLAP ...............................................99, 100, 112, 117, 118, 156
G Optimisation...........................................................................135
Optimisation...........................................................................137
Groupement par similitudes ...........................................135, 136 Outils......................................................................................210
Outils décisionnels ...................................................................65
H
P
Hasard ....................................................................................132
Heuristique...............................................................................18 Paradigme STI..........................................................................18
Hiérarchie.......................................................105, 106, 108, 112 Plan d’action ............................................................................87
Holland ..................................................................................177 Planification .............................................................................33
Hybridation ............................................................................181 Prédicats...................................................................................47
Hypercube........................................99, 102, 105, 106, 109, 111 Prédiction .......................................................................135, 136
Probabilité d’apparition .........................................................189
Problématique ..........................................................................12
I Problème ..................................................................................16
Processus de décision...............................................................28
Indicateur ...............................................................105, 107, 118
Indicateurs
Dispersion ........................................................................131 R
Tendance centrale ............................................................131
Induction................................................................................134 Raisonnement basé sur la mémoire ................................154, 165
Inférence ..........................................................................46, 133 Rationalité limitée ....................................................................36
Infocentre ...........................................................................70, 80 Rationalité procédurale ............................................................37
Initiative.............................................................................83, 87 RBM...............................................................................154, 165
Interactif...................................................................................40 Recherche de connaissances...................................................131
Internet...................................................................................185 Recherche opérationnelle .......................................................129
Inversion ................................................................................181 Règle d’activation ..................................................................201
Règle d’apprentissage ............................................................202
Règles.....................................................................................159
K Regroupement par similitudes................................................136
Réponse commune .................................................................132
Khi 2 ......................................................................................132 Réseau Bayésien.....................................................................188
K-moyennes ...........................................................................171 Réseau de neurones ................................................................200
Knowbot ................................................................................185 Réseaux de neurones ..............................................................155
ROLAP ..................................................113, 118, 119, 120, 156
M
S
Médiane .................................................................................131
Métadonnée........................................................................77, 91 Segmentation..................................................................135, 137
Méta-donnée ..................................................................117, 119 Sélection.................................................................................180
Méthodes traditionnelles........................................................131 Selective pressure...................................................................180
Métrique.................................................................................107 Séries temporelles ..................................................................162
Modèle de donnée....................................................................92 SGBD.......................................................................................42
Modèle en étoile.............................................110, 112, 113, 119 SIAD ........................................................................................39
Modèle en flocon ...................................................110, 112, 119 Slice and Dice ................................................100, 105, 108, 109
Modèle normalisé...................................................110, 111, 112 Snowflake...............................................................................110
Modélisation ............................................................................33 Sparcity ..................................................................................109
Modélisation dimensionnelle .................................................112 Star .........................................................................................110
Modélisation relationnelle .....................................................111 Statistiques .....................................................................130, 131
MOLAP .................................................113, 118, 119, 120, 156 STI ...........................................................................................18
Moyenne ................................................................................131 Stockage ...................................................................................84
Mutation.................................................................................181 Stratégie ...................................................................................56
Structure...................................................................................76
Système décisionnel ...........................................................15, 50
Système expert .........................................................................43 Taux de confiance ..................................................................162

Système opérationnel ...............................................................72 Taux de support......................................................................163
Taxinomie ..............................................................................161
Techniques de data mining.....................................................210
T Test d'hypothèses ...................................................................141
Théorie des graphes................................................................188
Table de faits..........................................................107, 112, 113 Traitement analytique en ligne ...............................................156
Tableau de bord .......................................................................62
Tableau des cooccurrences.....................................................158
Tableur.....................................................................................41 V
Tâches du data mining ...........................................................135
TAEL .....................................................................................156 Valeurs manquantes ...............................................................130
Taux d'amélioration ...............................................................163 Variable..................................................................................107

37 - TABLES
37.1 - TABLE DES FIGURES
Figure 1 : les Niveaux de préoccupation du décideur (selon Thomas Gilbert) .....................15

Figure 2 : comment traverser ?...............................................................................................17
Figure 3 : le Système de Traitement de l’Information ...........................................................20
Figure 4 : structure du Système décisionnel (1).....................................................................24
Figure 7 : échelle de Normalisation des décisions.................................................................29
Figure 8 : niveaux de préoccupations et niveau d’agrégation ...............................................30
Figure 9 : échelle de normalisation des décisions..................................................................34
Figure 10 : structuration & normalisation.............................................................................35
Figure 11 : fonctionnement d’un système expert...................................................................52
Figure 12 : différentes formes-objets reliées entre elles dans un réseau sémantique ............53
Figure 13 : le système décisionnel .........................................................................................57
Figure 14 : structure de la machine ........................................................................................58
Figure 15 : échelles liées à l'échelle des niveaux de préoccupations (1) ...............................59
Figure 16 : échelles liées à l'échelle des niveaux de préoccupations (2) ...............................59
Figure 17 : modèle des données simplifié du contenu informatif de base du système
décisionnel......................................................................................................................62
Figure 18 : l'entreprise, les 5 Forces de Porter, l’environnement ..........................................65
Figure 19 : différenciation par la technologie et la baisse des coûts .....................................66
Figure 20 : approche centrée sur le prix.................................................................................67
Figure 21 : structure de la machine ........................................................................................71
Figure 22 : positionnement du Data Warehouse....................................................................72
Figure 23 : positionnement de l’Analyse Multidimensionnelle.............................................74
Figure 24 : positionnement du Data Mining ..........................................................................76
Figure 25 : un graphe ...........................................................................................................207
Figure 26 : graphe connexe ..................................................................................................207
Figure 27 : graphe totalement connexe ................................................................................208
Figure 28 : graphe pondéré ..................................................................................................208
Figure 29 : graphe orienté ....................................................................................................208
Figure 30 : structure d'un arbre de décision .........................................................................212
Figure 31 : construction de l'arbre........................................................................................213
Figure 32 : le neurone formel...............................................................................................220
Figure 33 : activation du neurone.........................................................................................221
Figure 34 : les différentes couches du réseau de neurone....................................................221
Figure 35 : synoptique du réseau de neurones .....................................................................224

37.2 - TABLE DES GRAPHIQUES
Graphique 1 : graphe des décisions de niveau de préoccupation stratégique.......................68

Graphique 2 : déterminer le volume optimal d'apprentissage.............................................164
Graphique 3 : vente de voitures en fonction du nombre d'enfants et de l'âge du client .....182
Graphique 4 : positionnement de trois nouveaux clients....................................................183
Graphique 5 : répartition des descendants sur un cercle.....................................................197
Graphique 6 : processus de sélection des descendants .......................................................198
Graphique 7 : marché des logiciels de data mining ............................................................231
37.3 - TABLES DES TABLEAUX
Tableau 1 : les secteurs institutionnels...................................................................................12

Tableau 2 : exemple de défi à relever par chaque type d’organisation .................................13
Tableau 3 : tableau de décisions normalisées ........................................................................31
Tableau 4 : les niveaux de représentation ..............................................................................37
Tableau 5 : Modèle-Action-Equilibration..............................................................................40
Tableau 6 : niveaux de Préoccupation et rationalité Limitée.................................................45
Tableau 7 : positionnement du Data Warehouse ...................................................................73
Tableau 8 : différences entre données du système de production et données décisionnelles81
Tableau 9 : le data warehouse, point focal de l'informatique décisionnelle ..........................83
Tableau 10 : différences entre système de production et data warehouse.............................85
Tableau 11 : structure d'un data warehouse ...........................................................................86
Tableau 12 : tableau de synthèse des architectures de data warehouse.................................89
Tableau 13 : tableau de comparaison entre infocentre et Data Warehouse...........................92
Tableau 14 : cadre général d’un Data Warehouse .................................................................93
Tableau 15 : data warehouse - points de vue pour les utilisateurs.........................................95
Tableau 16 : définition d’une méta-donnée .........................................................................103
Tableau 17 : interactions des données..................................................................................104
Tableau 18 : finalités des data marts et data warehouse ......................................................108
Tableau 19 : les sept mythes du data mart ...........................................................................110
Tableau 20 : Ventilation des Règles de Codd. .....................................................................114
Tableau 21 : représentation sous forme de cube ..................................................................117
Tableau 22 : représentation pyramidale ...............................................................................118
Tableau 23 : exemple de hiérarchies multiples ....................................................................120
Tableau 24 : exemple de modèle en étoile ...........................................................................125
Tableau 25 : exemple de tables agrégées .............................................................................127
Tableau 26 : exemple de tables partitionnées ......................................................................128
Tableau 27 : architecture d’un produit Molap (EDS) ..........................................................130
Tableau 28 : architecture d’un produit Rolap (EDS) ...........................................................132
Tableau 29 : principaux outils MOLAP et ROLAP.............................................................132
Tableau 30 : les besoins et les outils du Data Warehouse (EDS) ........................................133

Tableau 31 : principaux outils d’extraction et de nettoyage................................................137
Tableau 32 : répartition du revenu du marché du Data Warehouse ....................................138
Tableau 33 : explications d'un fort taux de corrélation........................................................145
Tableau 34 : exemples d'induction.......................................................................................147
Tableau 35 : le cercle vertueux du data mining ...................................................................153
Tableau 36 : causes possibles de clôture d'un compte bancaire. .........................................155
Tableau 37 : liste des achats par client pour l'analyse du panier de la ménagère................172
Tableau 38 : tableau des cooccurrences ...............................................................................173
Tableau 39 : rappel du tableau des cooccurrences...............................................................173
Tableau 40 : ventes de voitures en fonction de l'âge et du nombre d'enfants......................181
Tableau 41 : réponse des clients à une offre en fonction de l'âge, du sexe et du salaire.....185
Tableau 42 : calcul des distances .........................................................................................186
Tableau 43 : tableau de synthèse utilisant la fonction de combinaison ...............................186
Tableau 44 : calcul des distances entre chaque graine et chaque point ...............................190
Tableau 45 : calcul des distances entre chaque point et les nouvelles graines (centroïdes) 190
Tableau 46 : tableau des distances entre chaque point ........................................................191
Tableau 47 : premières agglomérations ...............................................................................191
Tableau 48 : calcul des distances avec les nouvelles valeurs ..............................................192
Tableau 49 : deuxième et troisième niveau d'agrégation. ....................................................192
Tableau 50 : fin de la construction de l'arbre. ......................................................................192
Tableau 51 : évaluation des chromosomes...........................................................................197
Tableau 52 : hybridation de deux chromosomes .................................................................199
Tableau 53 : mutation d'un chromosome .............................................................................199
Tableau 54 : inversion dans un chromosome.......................................................................199
Tableau 55 : synoptique du processus de mise en œuvre des algorithmes génétiques .......200
Tableau 56 : choisir le bon outil de data mining..................................................................230
Tableau 57 : niveau de compétence selon les techniques de data mining ...........................232

38 - BIBLIOGRAPHIE
Ouvrages de référence
Jean-Michel Franco et EDS-Institut Prométhéus - Eyrolles, 1996

"Le Data Warehouse, le Data Mining"
Michael J.A. Berry et Gordon S. Linoff, - Masson, 1997

"Data Mining:Techniques appliquées au marketing, à la vente et aux services
clients"
René Lefébure et Gilles Venturi - Eyrolles, 1998

"Le Data Mining"
Pierre Lévine et Jean-Charles Pomerol - Editions Hermès, 1990

"Systèmes interactifs d’aide à la décision et systèmes experts"
Jean-Charles Pomerol, - Editions Hermès, 1988

"Les systèmes experts"
Victor Sandoval - Editions Hermès, 1997

"L’informatique décisionnelle"
Gérard Balantzian - Editions Masson, 1992

"Les schémas directeurs stratégiques, Démarche pratique"
Olivier Cérutti et Bruno Gattino - Editions Afnor, 1993

"Indicateurs et Tableaux de Bord"
Hervé Sérieyx - 1993, Editions Calmann-Lévy

"le Big bang des Organisations"
Anis Bouayad, Pierre-Yves Legris - Editions Dunod, 1996

"Les Alliances Stratégiques"
Martin Forest, Groupe Canadien Innovation, « Gérer le Savoir, le nouveau défi des
organisations », Journée d’études du 8 Avril 1997, Maison des Professions de Lille.

Articles
IEEE Parall & Distributed Technology, "Parallelism speeds data mining", 1995
Inist CNRS, "Power Tools for Data Drilling", 1996
Cover story, "Data Marts : Low cost, High Appeal", 1996
Objectif, "BussinessMiner : le Data Mining pour tous", 1997
Le monde informatique Novembre 1996
Le monde informatique Février 1997
01 Informatique n° 1442 Février 1997 et n° 1499 du 22 Mai 1998
Décision Micro&Réseaux n°248 Mars 1996
Sciences & vie micro - Juin 1998
Enregistrement (sur cassette)
Formation "Le Data Mining" de Valoris technologies
Autres ouvrages
“ Building the Data Warehouse ” - William H. INMON - 2° Ed 1996 WILEY
“ Le Data Warehouse ” - Jean Michel FRANCO - 1997 Eyrolles
“ Le développement des applications CLIENT/SERVEUR ”

William H. INMON - 1991 MASSON (QED)
“ Entrepôts de données ” - Ralph KIMBALL - 1996 Thomson Publishing (WILEY)
“ Data Mining - Techniques appliquées au marketing, à la vente et aux services clients ”

Michael J.A. BERRY - Gordon LINOFF - 1996 MASSON (Wiley)
“ Le Client-Serveur ” Georges et Olivier Gardarin - Ed Eyrolles

Articles
Platinum Technology (http://www.platinum.com)

“ Managing the Data Warehouse throughout its lifecycle ”
“ Putting Metadata to work in the warehouse ”
The Olap Report (http://www.olapreport.com)

“ What is OLAP ? ”
Kenan Technologies (http://www.kenan.com)

“ Multidimensional DataBase Technology ”
D2K (http://www.d2k.com)
“ What is a Data Mart ? ” - W.H. Inmon
Informatiques Magazine
Avril 1996 N° 16 Naviguer dans le data warehouse

Mars 1997 N° 26 Data Mining : Comment explorer ses données
Juin 1997 N° 30 Aide à la décision - les meilleurs outils
Janv 1998 N° 40 Dossier Data Mart
Fév 1998 N° 41 Décisionnel : Progiciel ou sur-mesure ?
Le Monde Informatique du 6 Mars 1998 - Les concepts MOLAP et ROLAP

Divers
Support de cours DESS SIAD de la société OSIS

Plaquette commerciale de Business et Décision (CDROM, Articles de presse)
Salon des Eis à Paris

Salon des EIS à Lille

39 - SITES INTERNET
Les sites les plus riches :
Institut Prométhéus sur http://www.prometheus.eds.fr

The DataWarehousing Center sur http://pwp.starnetinc.com/larryg
http://www.kdnuggets.com (en Anglais)
http://www.elseware.fr
Vous pouvez également consulter :
http://www.01-informatique.com/techno/fiches/F1396.htm
http://www.ordinateur-individuel.com/dos_1455/dos1455-7.html
http:// www.businessdecision.com/mining.htm
http://www.grimmersoft.com
http://www.mygale.org:80/05/jargonf/dtb/thm02.htm
http://www.lmi.fr:80/lmi/736/736p11.html
http://wwwperso.hol.fr:80/~nuvoloni/AD.HTM
http://yphise.com/etudes/fr/jrnl28.htm
http://www.grd-publications.com/tech/t_001.htm
http://www.datamodeling.com/
http://www.fr.ibm.com/france/pole/m3p_pr4.htm
http://www.idg.fr/lmi/700/700p28.html
http://www.cognos.com/international/fr/presse19.html
http://institut.inforoute.cgs.fr/idecis.htm
http://www.businessdecision.com/r2.htm
http://www.lmi.fr/lmi/756/756p10.html
Vous retrouverez l'intégralité de ce dossier sur le site suivant :
http://home.nordnet.fr/~dnakache/valeurc

DWH - Nackache (1) .9online - FR - Enorme Dossier DWH - y A Etl Et Prez ++

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

DWH - Nackache (1) .9online - FR - Enorme Dossier DWH - y A Etl Et Prez ++

Transféré par

Droits d'auteur :

Formats disponibles

Conservatoire National Version 1.

PRESENTATION (page 11)

LA PROBLEMATIQUE DE L'ENTREPRISE (page 12)

LE DATA WAREHOUSE (page 79)

OLAP ET ANALYSE MULTIDIMENSIONNELLE (page 111)

LE DATA MINING (page 140)

DIVERS : ETHIQUE, WEB, … (page 233)

C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 1

2 - LA PROBLEMATIQUE DE L'ENTREPRISE ..............................................................................................................12

2.2.6 - LE SIAD OU SYSTÈME INTERACTIF D’AIDE A LA DECISION ....................................................................................46

2.3.3.5 - Un niveau scolaire occidental élevé...............................................................................................................................69

8 - LE CONCEPT OLAP .....................................................................................................................................................111

16.2.2 - LA DEDUCTION ............................................................................................................................................147

19 - METHODOLOGIE DE DATA MINING....................................................................................................................154

21 - PRESENTATION RAPIDE DES TECHNIQUES......................................................................................................168

25.4.3 - GENERATION DES DESCENDANTS............................................................................................................197

C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 8

28.5.1 - MAUVAISE PERFORMANCE ................................................................................................................................219

33 - OUVERTURE À INTERNET ......................................................................................................................................235

39 - SITES INTERNET ........................................................................................................................................................261

C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 10

L’outil client du Data Warehouse a pour principal objectif de permettre à un utilisateur

C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 11

Nous proposons de répondre à cette problématique en décrivant :

un modèle « du système décisionnel de l’entreprise »,

Nous commençons par définir l’entreprise, le décideur, et les niveaux de préoccupation du

Tableau 1 : les secteurs institutionnels

C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 12

Ainsi, par le terme « entreprise », nous couvrons :

chacun des secteurs institutionnels de la comptabilité nationale (Français et

Les Sociétés et quasi sociétés

les associations (Françaises et étrangères).

La généralisation du concept « entreprise » s’appuie sur la similitude de problématique

Tableau 2 : exemple de défi à relever par chaque type d’organisation

C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 13

Remarque : l’objectif de rentabilité d’une association est assimilé à l’équilibre financier de

C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 14

Dans l’organisation ainsi définie, le décideur peut-être le responsable de cette organisation

2.1.3 - LES NIVEAUX DE PREOCCUPATIONS DU DECIDEUR

Thomas Gilbert énonce une succession de niveaux de préoccupation de la part du dirigeant

Partie 1, ( niveau 1 ) : la philosophie personnelle du dirigeant, présente dans la tête

Les 7 Niveauxde Préoccupation du Décideur, selon Thomas Gilbert

Figure 1 : les Niveaux de préoccupation du décideur (selon Thomas Gilbert)

C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 15

Le terme « Entreprise » désigne toute organisation humaine devant gérer sa

Le terme « Décideur » est celui qui engage la pérennité ou la raison d’être de

2.2 - LE SYSTEME DECISIONNEL DE L’ORGANISATION

Cette première partie va s’attacher à montrer les aspects du « Système Décisionnel de

C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 16

2.2.1 - LA RESOLUTION DE PROBLEME

Changer le système informatique de l’entreprise.

Le Sujet : au sens du terme « Entreprise » défini au paragraphe précédent.

2.2.1.2 - LA RESOLUTION DU PROBLEME

D’après Simon et Newell, la résolution d'un problème donné s'effectue en progressant, de

Figure 2 : comment traverser ?

2.2.1.3 - L’ESPACE DE RESOLUTION

l’espace des états,

2.2.1.3.1 - L’espace des états

Dans le cas de la rivière, les états sont les pierres.

2.2.1.3.2 - Les Opérateurs

2.2.1.3.3 - La Réduction de la Différence

La méthode générale pour choisir un opérateur ou construire un opérateur (raisonnement)

C:\CNAM\Data.doc Valeur C : Ingénierie des systèmes décisionnels Page 18