Vous êtes sur la page 1sur 237

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

SOMMAIRE GENERAL

PRESENTATION (page INTRODUCTION) LA PROBLEMATIQUE DE L'ENTREPRISE (page LA PROBLEMATIQUE DE L'ENTREPRISE) LE DATA WAREHOUSE (page LE DATA WAREHOUSE) OLAP ET ANALYSE MULTIDIMENSIONNELLE (page LE CONCEPT OLAP) LE DATA MINING (page INTRODUCTION AU DATA MINING) DIVERS : ETHIQUE, WEB, (page DATA MINING ET ETHIQUE)

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 1

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

SOMMAIRE DETAILLE
Page
1 - INTRODUCTION...............................................................................................................................................................10 2 - LA PROBLEMATIQUE DE L'ENTREPRISE...............................................................................................................11 2.1 - INTRODUCTION........................................................................................................................................................11 2.1.1 - LENTREPRISE..........................................................................................................................................................11 2.1.2 - LE DCIDEUR..........................................................................................................................................................13 2.1.3 - LES NIVEAUX DE PROCCUPATIONS DU DCIDEUR..........................................................................................................13 2.1.4 - RESUME..............................................................................................................................................................14 2.2 - LE SYSTME DCISIONNEL DE LORGANISATION.........................................................................................14 2.2.1 - LA RSOLUTION DE PROBLME....................................................................................................................................15
2.2.1.1 - Le Problme..................................................................................................................................................................15 2.2.1.2 - La Rsolution du Problme...........................................................................................................................................15 2.2.1.3 - Lespace de Rsolution.................................................................................................................................................16 2.2.1.3.1 - Lespace des tats.................................................................................................................................................16 2.2.1.3.2 - Les Oprateurs.....................................................................................................................................................16 2.2.1.3.3 - La Rduction de la Diffrence..............................................................................................................................16 2.2.1.3.4 - lHeuristique........................................................................................................................................................17 2.2.1.3.5 - En rsum............................................................................................................................................................17 2.2.2.1 - STI................................................................................................................................................................................17 2.2.2.2 - la Reprsentation du STI...............................................................................................................................................18 2.2.2.3 - Matire traite : Signes et Symboles.............................................................................................................................19 2.2.2.4 - Les dcalages espace, temps, forme du STI..................................................................................................................19 2.2.2.5 - La dfinition de Simon..................................................................................................................................................19 2.2.2.6 - En Rsum....................................................................................................................................................................19 2.2.3.1 - La Perception de lenvironnement.................................................................................................................................20 2.2.3.2 - La reprsentation mentale et les niveaux de proccupation...........................................................................................21 2.2.3.3 - Les composantes du modle..........................................................................................................................................21 2.2.3.4 - Llment dclencheur du problme.............................................................................................................................22 2.2.3.4.1 - Variation entre 2 valuations de la reprsentation du modle...............................................................................22 2.2.3.4.2 - Variation de ltat des proccupations..................................................................................................................22 2.2.3.5 - Le Projet de lOrganisation...........................................................................................................................................22 2.2.3.6 - En Rsum....................................................................................................................................................................23 2.2.4.1 - Les Phases de la Prise de dcision.................................................................................................................................24 2.2.4.2 - Echelle des proccupations et chelle de normalisation des Dcisions..........................................................................25 2.2.4.3 - Structuration du processus de dcision..........................................................................................................................28 2.2.4.3.1 - Introduction..........................................................................................................................................................28 2.2.4.3.2 - Rle des conseils extrieurs..................................................................................................................................29 2.2.4.3.3 - Processus de structuration et de Normalisation....................................................................................................29 2.2.4.3.3.1 - Dfinitions...................................................................................................................................................29 2.2.4.3.3.2 - Dveloppement du Processus......................................................................................................................30 2.2.4.4 - La Reprsentation.........................................................................................................................................................31 2.2.4.4.1 - Reprsentation, Structuration, Process.................................................................................................................31 2.2.4.4.2 - Les Niveaux de Reprsentations...........................................................................................................................32 2.2.4.4.3 - Equilibration et Modles......................................................................................................................................33 2.2.4.4.4 - Les Niveaux de Reprsentation............................................................................................................................34 2.2.4.4.5 - Modle.................................................................................................................................................................34 2.2.4.4.6 - 1er Espace de rsolution.......................................................................................................................................34 2.2.4.4.7 - 2d Espace de Rsolution.......................................................................................................................................35 2.2.5.1.1 - Les Modles Fonction optimise.......................................................................................................................36 2.2.5.1.2 - Hypothses de la rationalit limite......................................................................................................................36 2.2.5.1.3 - Consquences.......................................................................................................................................................36 2.2.5.1.4 - Rationalit Limite et Dcision Satisfaisante.......................................................................................................37 2.2.5.1.5 - rationalit limite et paradigme STI.....................................................................................................................38 2.2.5.1.6 - Rationalit limite dans les programmes..............................................................................................................39
OU

2.2.2 - LE PARADIGME STI...................................................................................................................................................17

2.2.3 - LORGANISATION ET LE STI........................................................................................................................................20

2.2.4 - LA DECISION.............................................................................................................................................................24

2.2.5 - LE PRINCIPE DE RATIONALIT LIMITE..........................................................................................................................36

2.2.6 - LE SIAD

SYSTME INTERACTIF DAIDE A LA DECISION..............................................................................................39

2.2.6.1.1 - Dfinition.............................................................................................................................................................39 2.2.6.1.2 - Interactif...............................................................................................................................................................40 2.2.6.1.3 - SIAD & Aide la dcision...................................................................................................................................40

2.2.7 - LES SIAD LMENTAIRES...........................................................................................................................................41


2.2.7.1 - Le tableur......................................................................................................................................................................41

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 2

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.2.8 - LE SYSTME DCISIONNEL...........................................................................................................................................50 2.3 - LE CONTENU INFORMATIF DU SYSTME DCISIONNEL..............................................................................53 2.3.1 - CONTENU INFORMATIF ELEMENTAIRE............................................................................................................................53
2.3.1.1 - Acte economique..........................................................................................................................................................53 2.3.1.1.1 - Structure de lacte conomique............................................................................................................................53 2.3.1.1.2 - le Contrat..............................................................................................................................................................54 2.3.1.1.3 - Lenvironnement..................................................................................................................................................54 2.3.1.1.4 - base de faits..........................................................................................................................................................54 2.3.1.1.5 - Base de Comprhension.......................................................................................................................................55 2.3.1.2 - Les Activits.................................................................................................................................................................56 2.3.1.2.1 - Les Activits Industrielles....................................................................................................................................56 2.3.1.2.2 - Les Activits Administratives..............................................................................................................................56 2.3.1.2.3 - Les Activits Associatives....................................................................................................................................56 2.3.2.1 - le diagnostic externe......................................................................................................................................................56 2.3.2.2 - Analyse de lEnvironnement.........................................................................................................................................57 2.3.2.3 - Le diagnostic interne.....................................................................................................................................................58 2.3.2.4 - Approche Cration de Valeur........................................................................................................................................58 2.3.2.5 - Conclusion....................................................................................................................................................................59 2.3.2.6 - LEnsemble des dcisions stratgiques.........................................................................................................................59 2.3.3.1 - Passage du compliqu au complexe..............................................................................................................................61 2.3.3.2 - La Mondialisation.........................................................................................................................................................61 2.3.3.3 - Le client........................................................................................................................................................................61 2.3.3.4 - Des contingences volutives.........................................................................................................................................61 2.3.3.5 - Un niveau scolaire occidental lev..............................................................................................................................61 2.3.3.6 - Le dveloppement des alliances, des rseaux dentreprises...........................................................................................61 2.3.3.7 - La 4me rvolution du Savoir.......................................................................................................................................62

2.2.7.1.1 - Thorie.................................................................................................................................................................41 2.2.7.1.2 - Mthode...............................................................................................................................................................41 2.2.7.1.3 - Modle.................................................................................................................................................................41 2.2.7.1.4 - Processeur dtats.................................................................................................................................................41 2.2.7.1.5 - S.T.I.....................................................................................................................................................................41 2.2.7.1.6 - Organisation de lensemble des modles..............................................................................................................41 2.2.7.1.7 - La recherche Heuristique sur les modles............................................................................................................42 2.2.7.1.8 - La recherche Heuristique sur les valeurs..............................................................................................................42 2.2.7.1.9 - Organisation de lensemble des modles..............................................................................................................42 2.2.7.2 - Systme de gestion de bases de donnes.......................................................................................................................42 2.2.7.2.1 - La Thorie Base de donnes ...........................................................................................................................42 2.2.7.2.2 - La mthode...........................................................................................................................................................42 2.2.7.2.3 - Le Modle............................................................................................................................................................42 2.2.7.2.4 - Ltat....................................................................................................................................................................43 2.2.7.2.5 - le processeur d'tat...............................................................................................................................................43 2.2.7.2.6 - Dmarche Heuristique sur les Modles................................................................................................................43 2.2.7.3 - Gnrateur de systmes experts....................................................................................................................................43 2.2.7.3.1 - La Thorie............................................................................................................................................................43 2.2.7.3.2 - Remarque.............................................................................................................................................................44 2.2.7.3.3 - Exemple dune base de faits.................................................................................................................................44 2.2.7.3.4 - Prsentation succincte des systmes experts.........................................................................................................44 2.2.7.3.5 - Reprsentation des connaissances........................................................................................................................45 2.2.7.3.6 - Reprsentation des faits........................................................................................................................................45 2.2.7.3.7 - Infrence incertaine..............................................................................................................................................46 2.2.7.3.8 - Choix dune rgle applicable................................................................................................................................46 2.2.7.3.9 - Le moteur dinfrence..........................................................................................................................................47 2.2.7.3.10 - Types de Fonctionnement : Chanage avant, arrire, mixte...............................................................................47 2.2.7.3.11 - Logique des Prdicats.........................................................................................................................................47 2.2.7.3.12 - La Thorie..........................................................................................................................................................47 2.2.7.3.13 - La Mthode........................................................................................................................................................48 2.2.7.3.14 - Le Modle..........................................................................................................................................................48 2.2.7.3.15 - Etat.....................................................................................................................................................................48 2.2.7.3.16 - Oprateur...........................................................................................................................................................48 2.2.7.3.17 - Processeur dtat................................................................................................................................................48 2.2.7.3.18 - Recherche Heuristique sur les modles..............................................................................................................48 2.2.7.3.19 - Remarques..........................................................................................................................................................49

2.3.2 - STRATGIE DES ORGANISATIONS....................................................................................................................................56

2.3.3 - LE CONTENU INFORMATIF DE LA PARTIE HAUTE DES PROCCUPATIONS..................................................................................60

2.3.4 - CONCLUSION............................................................................................................................................................62 2.4 - CONCLUSION DE LA PROBLEMATIQUE.............................................................................................................62 2.4.1 - SYSTME DCISIONNEL................................................................................................................................................62 2.4.2 - POSTIONNEMENT DES OUTILS DAIDE A LA DECISION..........................................................................................................62
2.4.2.1 - Positionnement du Data Warehouse..............................................................................................................................63 2.4.2.2 - Autres Outils dcisionnels.............................................................................................................................................65 2.4.2.3 - Tableur et Modles.......................................................................................................................................................65 2.4.2.4 - Positionnement de lanalyse multidimensionnelle.........................................................................................................66

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 3

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.4.3 - CONCLUSION............................................................................................................................................................69

2.4.2.5 - Positionnement du Data Mining....................................................................................................................................67 2.4.2.6 - Positionnement du Systme Expert...............................................................................................................................68 2.4.2.7 - Positionnement du tableau de Bord...............................................................................................................................68 2.4.2.8 - Positionnement des E.I.S (Executive Information System)...........................................................................................68

3 - LE DATA WAREHOUSE..................................................................................................................................................70 3.1 - PRSENTATION........................................................................................................................................................70 3.2 - POURQUOI UN DATA WAREHOUSE.....................................................................................................................71 3.2.1 - LA PROBLMATIQUE DES ENTREPRISES............................................................................................................................71 3.2.2 - LA RALIT DES SYSTMES DINFORMATIONS....................................................................................................................72 3.2.3 - LES OBJECTIFS..........................................................................................................................................................73 3.3 - DFINITION................................................................................................................................................................74 3.4 - LES CONCEPTS DE BASE........................................................................................................................................76 3.4.1 - LA STRUCTURE..........................................................................................................................................................76 3.4.2 - LES ARCHITECTURES...................................................................................................................................................78
3.4.2.1 - Larchitecture relle......................................................................................................................................................78 3.4.2.2 - Larchitecture virtuelle..................................................................................................................................................78 3.4.2.3 - Larchitecture remote....................................................................................................................................................79 3.4.2.4 - Synthse........................................................................................................................................................................79

3.4.3 - INFOCENTRE ET DATA WAREHOUSE...............................................................................................................................80

4 - LA CONSTRUCTION DU DATA WAREHOUSE.........................................................................................................82 4.1 - LES APPLICATIONS..................................................................................................................................................83 4.2 - LES COMPOSANTS FONCTIONNELS....................................................................................................................83 4.2.1 - LACQUISITION..........................................................................................................................................................83 4.2.2 - LE STOCKAGE...........................................................................................................................................................84 4.2.3 - LACCS..................................................................................................................................................................84 4.3 - LES INFRASTRUCTURES.........................................................................................................................................84 5 - LA CONCEPTION DU DATA WAREHOUSE..............................................................................................................86 5.1 - DCOUVRIR ET DFINIR LES INITIATIVES........................................................................................................87 5.1.1 - LTUDE STRATGIQUE...............................................................................................................................................87 5.1.2 - LE PLAN DACTION.....................................................................................................................................................87 5.2 - LINFRASTRUCTURE...............................................................................................................................................88 5.2.1 - LINFRASTRUCTURE TECHNIQUE....................................................................................................................................88 5.2.2 - LINFRASTRUCTURE ORGANISATIONNELLE........................................................................................................................89 5.3 - LA FORMATION........................................................................................................................................................89 5.4 - LA MISE EN UVRE DES APPLICATIONS...........................................................................................................89 6 - LADMINISTRATION DES DONNES.........................................................................................................................91 6.1 - LES MTADONNES................................................................................................................................................91 6.2 - LE RFRENTIEL DU DATA WAREHOUSE.........................................................................................................92 6.3 - LA MISE EN UVRE.................................................................................................................................................93 6.3.1 - SCURIT.................................................................................................................................................................93 6.3.2 - GESTION DES PERFORMANCES.......................................................................................................................................94 6.3.3 - BATCHS...................................................................................................................................................................95 7 - LE DATA MART................................................................................................................................................................96 7.1 - DFINITION................................................................................................................................................................96 7.2 - MISE EN PLACE.........................................................................................................................................................97 8 - LE CONCEPT OLAP.........................................................................................................................................................99 8.1 - PRSENTATION........................................................................................................................................................99 8.2 - LES 12 RGLES OLAP...............................................................................................................................................99 8.2.1 - TYPOLOGIE DES REGLES O.L.A.P........................................................................................................................102 8.2.2 - COMMENTAIRES.......................................................................................................................................................103 9 - ANALYSE MULTIDIMENTIONNELLE.....................................................................................................................104 9.1 - LE MODLE..............................................................................................................................................................105 9.1.1 - LES DIMENSIONS......................................................................................................................................................105 9.1.2 - LES VARIABLES........................................................................................................................................................106 9.2 - NAVIGATION DANS LES DONNES...................................................................................................................107 9.2.1 - DRILL-DOWN, DRILL-UP...........................................................................................................................................107 9.2.2 - SLICE AND DICE......................................................................................................................................................107 9.2.3 - DATA SURFING.......................................................................................................................................................108 C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 4

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

9.3 - PROBLEME DES MATRICES CREUSES...............................................................................................................108 10 - MODELISATION...........................................................................................................................................................109 10.1 - MODLISATION RELATIONNELLE..................................................................................................................110 10.1.1 - MODLE DE DONNES NORMALIS.............................................................................................................................110 10.1.2 - MODLE DE DONNES DNORMALIS.........................................................................................................................110 10.2 - MODLISATION DIMENSIONNELLE................................................................................................................111 10.2.1 - MODLISER EN TOILE............................................................................................................................................111 10.2.2 - MODLISER EN FLOCON..........................................................................................................................................111 11 - STOCKAGE DES DONNEES.......................................................................................................................................113 11.1 - LE STOCKAGE DES DONNES EXTERNES.....................................................................................................113 11.2 - OPTIMISATION PHYSIQUE.................................................................................................................................114 11.2.1 - AGREGATION DE TABLES...........................................................................................................................................114 11.2.2 - PARTITIONNEMENT DE TABLES...................................................................................................................................115 11.3 - LES MTA-DONNES...........................................................................................................................................116 12 - LES DIFFERENTS OUTILS OLAP.............................................................................................................................117 12.1 - LES OUTILS MOLAP.............................................................................................................................................117 12.2 - LES OUTILS ROLAP..............................................................................................................................................118 13 - L'ALIMENTATION DU DATA WAREHOUSE........................................................................................................120 13.1 - LES PHASES DE L'ALIMENTATION.................................................................................................................120 13.2 - LA DECOUVERTE DES DONNES.....................................................................................................................121 13.3 - L'EXTRACTION DES DONNES.........................................................................................................................121 13.4 - LA TRANSFORMATION DES DONNES...........................................................................................................122 13.5 - LE CHARGEMENT DES DONNES....................................................................................................................122 14 - QUELQUES CHIFFRES...............................................................................................................................................124 14.1 - LE MARCH DU DATA WAREHOUSE..............................................................................................................124 14.2 - LE RETOUR SUR INVESTISSEMENTS..............................................................................................................125 15 - INTRODUCTION AU DATA MINING.......................................................................................................................126 15.1 - L'ENVIRONNEMENT DE L'ENTREPRISE..........................................................................................................126 15.2 - PRESENTATION DU DATA MINING..................................................................................................................126 15.3 - DEFINITION............................................................................................................................................................128 15.4 - LE DATA MINING ET LA RECHERCHE OPERATIONNELLE........................................................................128 15.5 - STATISTIQUES ET DATA MINING.....................................................................................................................129 16 - LA RECHERCHE DE CONNAISSANCES.................................................................................................................130 16.1 - LES STATISTIQUES..............................................................................................................................................130 16.1.1 - INDICATEURS DE TENDANCE CENTRALE................................................................................................130 16.1.2 - INDICATEURS DE DISPERSION..................................................................................................................130 16.1.3 - RELATIONS ENTRE VARIABLES..................................................................................................................131 16.2 - LES SCHEMAS DINFERENCE............................................................................................................................132 16.2.1 - LABDUCTION................................................................................................................................................132 16.2.2 - LA DEDUCTION.............................................................................................................................................133 16.2.3 - LINDUCTION................................................................................................................................................133 17 - LES TACHES DU DATA MINING..............................................................................................................................134 17.1 - LA CLASSIFICATION...........................................................................................................................................134 17.2 - LESTIMATION......................................................................................................................................................135 17.3 - LA PREDICTION....................................................................................................................................................135 17.4 - LE REGROUPEMENT PAR SIMILITUDES.........................................................................................................135 17.5 - LANALYSE DES CLUSTERS..............................................................................................................................136 17.6 - LA DESCRIPTION..................................................................................................................................................136 17.7 - LOPTIMISATION..................................................................................................................................................136 17.8 - ILLUSTRATION DES TACHES DU DATA MINING.........................................................................................137 17.9 - SYNTHESE..............................................................................................................................................................138 18 - LE CERCLE VERTUEUX............................................................................................................................................139 19 - METHODOLOGIE DE DATA MINING.....................................................................................................................140 19.1 - LE TEST DHYPOTHESES....................................................................................................................................140 19.1.1 - PROCESSUS DU TEST D'HYPOTHESE........................................................................................................140
19.1.1.1 - Gnrer de bonnes ides............................................................................................................................................140

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 5

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

19.1.2 - SYNTHESE.......................................................................................................................................................144 19.2 - LA DECOUVERTE DE CONNAISSANCES.........................................................................................................145 19.2.1 - LA DECOUVERTE DE CONNAISSANCES NON DIRIGEE..........................................................................145
19.2.1.1 - METHODOLOGIE DE DECOUVERTE NON DIRIGEE.......................................................................................146 19.2.1.1.1 - Identifier les sources de donnes disponibles...................................................................................................146 19.2.1.1.2 - Prparer les donnes pour l'analyse..................................................................................................................146 19.2.1.1.2.1 - Regrouper les donnes et les transformer................................................................................................147 19.2.1.1.2.2 - Distribuer les donnes.............................................................................................................................147 19.2.1.1.3 - Construire et instruire le programme informatique...........................................................................................148 19.2.1.1.4 - Evaluer le modle informatique........................................................................................................................149 19.2.1.1.5 - Appliquer le modle informatique de nouvelles donnes...............................................................................149 19.2.1.1.6 - Identifier les cibles potentielles pour la dcouverte de connaissances dirige..................................................149 19.2.1.1.7 - Gnrer de nouvelles hypothses tester.........................................................................................................150 19.2.1.2 - SYNTHESE..............................................................................................................................................................150

19.1.1.2 - Dterminer les donnes pour tester les ides.............................................................................................................141 19.1.1.3 - Localiser les donnes................................................................................................................................................141 19.1.1.4 - Prparer les donnes pour l'analyse...........................................................................................................................142 19.1.1.4.1 - Dfinir le bon niveau de rsum.......................................................................................................................142 19.1.1.4.2 - Les architectures informatiques incompatibles.................................................................................................142 19.1.1.4.3 - Le codage incohrent des donnes....................................................................................................................142 19.1.1.4.4 - Les donnes textuelles......................................................................................................................................143 19.1.1.4.5 - Les valeurs manquantes....................................................................................................................................143 19.1.1.5 - Construire des modles informatiques.......................................................................................................................143 19.1.1.6 - Evaluer les modles informatiques............................................................................................................................144

19.2.2 - LA DECOUVERTE DE CONNAISSANCES DIRIGEE...................................................................................151


19.2.2.1 - METHODOLOGIE...................................................................................................................................................151 19.2.2.2 - SYNTHESE..............................................................................................................................................................151

20 - L'EVALUATION............................................................................................................................................................152 21 - PRESENTATION RAPIDE DES TECHNIQUES......................................................................................................153 21.1 - ANALYSE DU PANIER DE LA MENAGERE.....................................................................................................153 21.2 - LE RAISONNEMENT BASE SUR LA MEMOIRE...............................................................................................153 21.3 - LA DETECTION AUTOMATIQUE DE CLUSTERS............................................................................................153 21.4 - L'ANALYSE DES LIENS........................................................................................................................................154 21.5 - LES ARBRES DE DECISION.................................................................................................................................154 21.6 - LES RESEAUX DE NEURONES...........................................................................................................................154 21.7 - LES ALGORITHMES GENETIQUES....................................................................................................................155 21.8 - LES AGENTS INTELLIGENTS OU KNOWBOT.................................................................................................155 21.9 - LE TRAITEMENT ANALYTIQUE EN LIGNE (TAEL).......................................................................................155 22 - ANALYSE DU PANIER DE LA MENAGERE...........................................................................................................156 22.1 - PRESENTATION....................................................................................................................................................156 22.2 - UTILISATION.........................................................................................................................................................156 22.3 - FONCTIONNEMENT.............................................................................................................................................157 22.3.1 - CONSTRUIRE LE TABLEAU DES COOCCURRENCES...........................................................................................................157 22.3.2 - LIRE ET INTERPRTER LE TABLEAU.............................................................................................................................158 22.4 - LES REGLES...........................................................................................................................................................158 22.4.1 - GNRER DES RGLES............................................................................................................................................158 22.4.2 - TYPOLOGIE DES RGLES..........................................................................................................................................159
22.4.2.1 - La rgle utile.............................................................................................................................................................159 22.4.2.2 - La rgle triviale.........................................................................................................................................................159 22.4.2.3 - La rgle inexplicable.................................................................................................................................................159

22.5 - METTRE EN UVRE LA TECHNIQUE..............................................................................................................160 22.5.1 - LA TAXINOMIE...............................................................................................................................................160 22.5.2 - LES ARTICLES VIRTUELS.............................................................................................................................160 22.5.3 - LES REGLES DE DISSOCIATION.................................................................................................................160 22.5.4 - LES SERIES TEMPORELLES.........................................................................................................................161 22.6 - EVALUER LES RESULTATS................................................................................................................................161 22.6.1 - LA FRQUENCE.....................................................................................................................................................161 22.6.2 - LE NIVEAU (OU TAUX) DE CONFIANCE........................................................................................................................161 22.6.3 - LE NIVEAU DE SUPPORT.............................................................................................................................162 22.6.4 - LE TAUX D'AMLIORATION.......................................................................................................................................162 22.7 - LES POINTS FORTS...............................................................................................................................................162 22.8 - LES POINTS FAIBLES...........................................................................................................................................163 22.9 - QUAND L'UTILISER ?...........................................................................................................................................163 22.10 - SYNTHESE............................................................................................................................................................163 23 - LE RAISONNEMENT BASE SUR LA MEMOIRE...................................................................................................164 C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 6

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

23.1 - PRESENTATION....................................................................................................................................................164 23.2 - UTILISATION.........................................................................................................................................................164 23.3 - FONCTIONNEMENT.............................................................................................................................................166 23.4 - METTRE EN UVRE LE RBM.............................................................................................................................167 23.4.1 - LA FONCTION DE DISTANCE......................................................................................................................167 23.4.2 - LA FONCTION DE COMBINAISON..............................................................................................................168 23.5 - EXEMPLE................................................................................................................................................................168 23.6 - LES POINTS FORTS DU RBM..............................................................................................................................170 23.7 - LES POINTS FAIBLES DU RBM..........................................................................................................................170 23.8 - SYNTHESE..............................................................................................................................................................170 24 - LA DETECTION AUTOMATIQUE DE CLUSTERS...............................................................................................171 24.1 - PRESENTATION....................................................................................................................................................171 24.2 - UTILISATION.........................................................................................................................................................171 24.3 - FONCTIONNEMENT.............................................................................................................................................171 24.3.1 - METHODE DES K-MOYENNES....................................................................................................................171 24.3.2 - METHODE PAR AGGLOMERATION............................................................................................................172 24.4 - MISE EN UVRE...................................................................................................................................................172 24.5 - EXEMPLES..............................................................................................................................................................172 24.5.1 - METHODE DES K-MOYENNES....................................................................................................................172 24.5.2 - METHODE PAR AGGLOMERATION............................................................................................................174 24.6 - EVALUER................................................................................................................................................................176 24.7 - LES POINTS FORTS...............................................................................................................................................176 24.8 - LES POINTS FAIBLES...........................................................................................................................................176 24.9 - SYNTHESE..............................................................................................................................................................176 25 - LES ALGORITHMES GENETIQUES........................................................................................................................177 25.1 - PRESENTATION....................................................................................................................................................177 25.2 - UTILISATION.........................................................................................................................................................177 25.3 - FONCTIONNEMENT.............................................................................................................................................177 25.3.1 - NOTIONS DE GENETIQUE...........................................................................................................................177 25.3.2 - LES ALGORITHMES GENETIQUES..............................................................................................................178 25.4 - MISE EN UVRE DES ALGORITHMES GENETIQUES...................................................................................178 25.4.1 - PREPARATION DES DONNEES....................................................................................................................178 25.4.2 - FONCTION D'EVALUATION.........................................................................................................................178 25.4.3 - GENERATION DES DESCENDANTS............................................................................................................179 25.4.4 - PROCESSUS DE SELECTION........................................................................................................................180 25.4.5 - MANIPULATIONS GENETIQUES.................................................................................................................181
25.4.5.1 - Hybridation...............................................................................................................................................................181 25.4.5.2 - Mutation....................................................................................................................................................................181 25.4.5.3 - Inversion...................................................................................................................................................................181

25.4.6 - FIN DU PROCESSUS......................................................................................................................................182 25.4.7 - SYNOPTIQUE..................................................................................................................................................182 25.5 - EXEMPLE................................................................................................................................................................183 25.6 - LES POINTS FORTS...............................................................................................................................................184 25.7 - LES POINTS FAIBLES...........................................................................................................................................184 25.8 - SYNTHESE..............................................................................................................................................................184 26 - LES AGENTS INTELLIGENTS OU KNOWBOT.....................................................................................................185 26.1 - PRESENTATION....................................................................................................................................................185 26.2 - UTILISATION.........................................................................................................................................................185 26.3 - LES CONSEILLERS ELECTRONIQUES..............................................................................................................186 26.3.1 - LES AGENTS NEGOCIATEURS.....................................................................................................................186 26.3.2 - LES AGENTS VENDEURS..............................................................................................................................186 26.4 - KNOWBOT ET DATA MINING............................................................................................................................186 26.5 - EXEMPLE................................................................................................................................................................187 26.6 - SYNTHESE..............................................................................................................................................................187 27 - LES RESEAUX BAYESIENS.......................................................................................................................................188 27.1 - PRSENTATION....................................................................................................................................................188 27.1.1 - RAPPEL SUR LA THORIE DES GRAPHES.......................................................................................................................188 27.2 - FONCTIONNEMENT.............................................................................................................................................189 27.3 - MISE EN PLACE.....................................................................................................................................................190 27.3.1 - PRPARATION DES VARIABLES...................................................................................................................................190 27.3.2 - SLECTION DES VARIABLES.......................................................................................................................................190 27.3.3 - IDENTIFICATION DES DPENDANCES...........................................................................................................................190 C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 7

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

27.3.4 - MATRICE DES PROBABILITS.....................................................................................................................................191 27.4 - LES POINTS FORTS...............................................................................................................................................191 27.4.1 - BONNE RSOLUTION...............................................................................................................................................191 27.4.2 - BONNE VISIBILIT..................................................................................................................................................191 27.4.3 - BONNE DCOUVERTE DE RELATIONS...........................................................................................................................191 27.5 - LES POINTS FAIBLES...........................................................................................................................................191 27.5.1 - MAUVAISE ADAPTATION...........................................................................................................................................191 27.5.2 - PEU DOUTILS......................................................................................................................................................192 27.5.3 - MAUVAISE PERFORMANCE........................................................................................................................................192 28 - LES ARBRES DE DECISIONS....................................................................................................................................193 28.1 - PRSENTATION....................................................................................................................................................193 28.2 - FONCTIONNEMENT.............................................................................................................................................193 28.2.1 - CART................................................................................................................................................................194 28.2.2 - C4.5..................................................................................................................................................................196
28.2.2.1 - Nombre de sorties dun nud variable......................................................................................................................196 28.2.2.2 - Mthode de dtermination de lordre des bifurcations...............................................................................................196 28.2.2.3 - Elagage.....................................................................................................................................................................196 28.2.2.4 - Ensemble de rgles....................................................................................................................................................196 28.2.3.1 - Dveloppement de larbre.........................................................................................................................................197

28.2.3 - CHAID.............................................................................................................................................................197

28.3 - MISE EN PLACE.....................................................................................................................................................197 28.3.1 - PRPARATION DES DONNES.....................................................................................................................................197 28.3.2 - ENRICHISSEMENT DES DONNES................................................................................................................................198 28.3.3 - CRATION ET VALIDATION DE LARBORESCENCE............................................................................................................198 28.4 - LES POINTS FORTS...............................................................................................................................................198 28.4.1 - SIMPLICIT DUTILISATION.......................................................................................................................................198 28.4.2 - BONNE LISIBILIT...................................................................................................................................................198 28.4.3 - BONNE ADAPTATION...............................................................................................................................................199 28.5 - LES POINTS FAIBLES...........................................................................................................................................199 28.5.1 - MAUVAISE PERFORMANCE........................................................................................................................................199 28.5.2 - COT DE LAPPRENTISSAGE.....................................................................................................................................199 29 - LES RESEAUX DE NEURONES.................................................................................................................................200 29.1 - PRSENTATION....................................................................................................................................................200 29.2 - FONCTIONNEMENT.............................................................................................................................................200 29.2.1 - NEURONE FORMEL.................................................................................................................................................200 29.2.2 - RGLE DACTIVATION.............................................................................................................................................201 29.2.3 - ORGANISATION EN COUCHES....................................................................................................................................201 29.2.4 - RGLE DAPPRENTISSAGE........................................................................................................................................202 29.3 - MISE EN PLACE.....................................................................................................................................................202 29.3.1 - PRPARATION DES DONNES.....................................................................................................................................202 29.3.2 - DTERMINATION DES ENTRES ET DES SORTIES.............................................................................................................202 29.3.3 - CONSTITUTION DE LA BASE DEXEMPLES.....................................................................................................................202 29.3.4 - CODAGE DES ENTRES............................................................................................................................................203 29.3.5 - OPTIMISATION DU JEU DE DONNES...........................................................................................................................203 29.3.6 - DTERMINATION DES PARAMTRES.............................................................................................................................203 29.3.7 - PHASE DAPPRENTISSAGE........................................................................................................................................204 29.4 - LES POINTS FORTS...............................................................................................................................................205 29.4.1 - SOUPLESSE...........................................................................................................................................................205 29.4.2 - BONNE RSOLUTION...............................................................................................................................................205 29.4.3 - BONNE ADAPTATION...............................................................................................................................................205 29.4.4 - OUTILS DISPONIBLES..............................................................................................................................................205 29.5 - LES POINTS FAIBLES...........................................................................................................................................205 29.5.1 - CODAGE DES ENTRES............................................................................................................................................206 29.5.2 - LISIBILIT............................................................................................................................................................206 29.5.3 - DTERMINATION DE LA TAILLE..................................................................................................................................206 29.5.4 - NON OPTIMALIT...................................................................................................................................................206 29.5.5 - PERFORMANCE......................................................................................................................................................206 30 - MISE EN PLACE...........................................................................................................................................................207 30.1 - POSER LE PROBLME..........................................................................................................................................207 30.2 - RECHERCHE DES DONNES..............................................................................................................................207 30.3 - SLECTION DES DONNES................................................................................................................................208 30.4 - NETTOYAGE DES DONNES..............................................................................................................................208 30.5 - ACTIONS SUR LES VARIABLES.........................................................................................................................208 C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 8

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

30.6 - RECHERCHE DU MODLE..................................................................................................................................209 30.7 - EVALUATION DU RSULTAT............................................................................................................................209 30.8 - INTGRATION DE LA CONNAISSANCE...........................................................................................................209 31 - CHOISIR LE BON OUTIL...........................................................................................................................................210 31.1 - CARACTRISTIQUES INFORMATIQUES.........................................................................................................211 31.2 - GAMMES DE PRIX ET DE PUISSANCE.............................................................................................................211 31.3 - ADQUATION DE LOUTIL.................................................................................................................................212 31.4 - NIVEAU DE COMPTENCE.................................................................................................................................212 32 - DATA MINING ET ETHIQUE.....................................................................................................................................213 33 - OUVERTURE INTERNET.......................................................................................................................................214 33.1 - ACCS DES PAGES STATIQUES....................................................................................................................214 33.2 - ACCS DES PAGES DYNAMIQUES...............................................................................................................215 33.3 - LE WEB ET L'AIDE LA DCISION..................................................................................................................216 34 - CONCLUSION................................................................................................................................................................217 34.1 - LES OUTILS DAIDE LA DCISION...............................................................................................................217 34.2 - LES PERSPECTIVES POUR LENTREPRISE......................................................................................................217 34.3 - CONCLUSION........................................................................................................................................................218 35 - GLOSSAIRE...................................................................................................................................................................219 36 - INDEX..............................................................................................................................................................................229 37 - TABLES...........................................................................................................................................................................232 37.1 - TABLE DES FIGURES...........................................................................................................................................232 37.2 - TABLE DES GRAPHIQUES..................................................................................................................................232 37.3 - TABLES DES TABLEAUX....................................................................................................................................233 38 - BIBLIOGRAPHIE..........................................................................................................................................................235 39 - SITES INTERNET.........................................................................................................................................................238

SITES INTERNET

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 9

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1 INTRODUCTION
"L'information au bout des doigts"; un slogan publicitaire apparu au dbut des annes 1990 qui refltait bien le fait que les entreprises commenaient de plus en plus sintresser linformatique dcisionnelle. Loutil client du Data Warehouse a pour principal objectif de permettre un utilisateur daccder de manire simple et ergonomique un serveur de donnes et de valoriser linformation rcupre. Cet outil daide la dcision doit rpondre aux diffrents besoins des utilisateurs. Les requteurs leur permettent en toute autonomie un accs l'information en libre service sans se soucier des chemins d'accs celle-ci. Ils veulent galement analyser les donnes mises leur disposition et visualiser les informations (les indicateurs) par rapport diffrents axes danalyse ce qui ncessite de s'appuyer sur une information pr-package et fortement structure. Les outils OLAP (On Line Analytical Processing) rpondent ces besoins. Les outils de Data Mining vont plus loin et permettent aux utilisateurs "mtier" d'extraire de la connaissances de ses donnes grce des mcanismes d'induction.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 10

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 LA PROBLEMATIQUE DE L'ENTREPRISE 2.1 INTRODUCTION


La Problmatique de lEntreprise , ce titre amne naturellement dfinir la position de lentreprise par rapport au sujet le Datawarehouse, le Datamining et dfinir en quoi celleci est concerne. Plus prcisment, montrer comment ces techniques dinformatique dcisionnelle sont une rponse au problme de prise de dcision de lorganisation au vu de son contexte, de ses contraintes, de ses objectifs poursuivis sur les plans scurit, dveloppement et rentabilit. Nous proposons de rpondre cette problmatique en dcrivant : un modle du systme dcisionnel de lentreprise , et le contenu informatif de ce systme dcisionnel.. Nous commenons par dfinir lentreprise, le dcideur, et les niveaux de proccupation du dcideur.

1.1.1 LENTREPRISE
Dans un souci dexhaustivit, nous nous appuyons sur le schma des secteurs institutionnels ci-dessous.
Socits et quasi-Socits Institutions Financires Socits d'Assurance Administration Publique Administration Prive

Mnages

March

Tableau 1 : les secteurs institutionnels

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 11

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Nous dsignons donc sous le terme Entreprise toute organisation humaine devant grer sa raison dtre et/ou sa prennit au travers des objectifs cits ci-dessus (scurit, dveloppement, rentabilit). Par voie de consquence, cette organisation humaine est dote dun centre de dcision. Ainsi, par le terme entreprise , nous couvrons : chacun des secteurs institutionnels de la comptabilit nationale (Franais et Etrangers). Les Socits et quasi socits Les Institutions Financires Les Socits dAssurance Les Mnages Les Administrations Publiques Les Administrations Prives.

les associations (Franaises et trangres). toute autre organisation que celles cites ci-dessus. La figure Les secteurs institutionnels illustre les relations de march ou les relations concurrentielles et les relations non concurrentielles de la part des administrations. La gnralisation du concept entreprise sappuie sur la similitude de problmatique quand il sagit de conduire une organisation travers le temps et lespace dans un contexte en perptuelle mouvance sachant que la prise de dcision ne peut relever du rflexe. Trois exemples de problme rsoudre ou de dfi relever pour des organisations appartenant des secteurs institutionnels diffrents.
Objectif de Dveloppement Gagner x% de part de March Contrainte Taux de rmunration du => Recherche de Solution capital de y% fix par les actionnaires Travailler Budget => Recherche de Solution Constant

Socit

Administration Rpondre (Secteur Hospitalier l'augmentation de la Franais ) demande Association but non lucratif

Augmenter la qualit d'un Rsultat de l'exercice = 0 => Recherche de Solution service

Tableau 2 : exemple de dfi relever par chaque type dorganisation

Remarque : lobjectif de rentabilit dune association est assimil lquilibre financier de lexercice.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 12

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1 LE DCIDEUR
Dans lorganisation ainsi dfinie, le dcideur peut-tre le responsable de cette organisation ou le responsable dune fonction de cette organisation. Nous associons le terme Dcideur et la responsabilit vis vis de la prennit de lorganisation.

1.1.2 LES NIVEAUX DE PROCCUPATIONS DU DCIDEUR


Thomas Gilbert nonce une succession de niveaux de proccupation de la part du dirigeant dentreprise que la figure ci-dessous prsente sous forme de pyramide. Il dcompose cette pyramide en 3 parties : Partie 1, ( niveau 1 ) : la philosophie personnelle du dirigeant, prsente dans la tte du dirigeant. Partie 2, ( niveaux 2 4 ) constituant la cohrence et la prennit de lentreprise. Partie 3, ( niveaux 5 7 ) constituant la partie oprationnelle de lentreprise.
Les 7 Niv eau x d e Pro ccu p atio n d u Dcid eu r, s elo n T h o mas Gilb ert Philos ophie = Po u r Qu o i, le Fu tu r Culture = En s emb le d es v aleu rs d e l'en trep ris e P olitique = Relatio n s d e Po u v o ir et Org an is atio n d u p o u v o ir S tratg ique = Ob jectifs attein d re mo y en et lo n g terme Tactique = Co o rd in atio n d es mo y en s co u rt terme Log is tique = M o y en s & M th o d es relatifs l'o rg an is atio n Tche = Niv eau d 'excu tio n : trav ail ralis er
Figure 1 : les Niveaux de proccupation du dcideur (selon Thomas Gilbert)

1 2 3 4 5 6 7

Nous adoptons cette chelle des niveaux de proccupation pour dfinir le contexte gnral de la prise de dcision dans lentreprise et nous disons que lespace des dcisions du dcideur est structur par les niveaux de ses proccupations.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 13

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1 RESUME
Le terme Entreprise dsigne toute organisation humaine devant grer sa raison dtre et/ou sa prennit au travers des objectifs de scurit, de dveloppement, de rentabilit et se trouvant par voie de consquence dote dun centre de dcision.

Le terme Dcideur est celui qui engage la prennit ou la raison dtre de lOrganisation.

Lespace des dcisions du dcideur est structur par les niveaux de ses proccupations.

1.2 LE SYSTME DCISIONNEL DE LORGANISATION


Cette premire partie va sattacher montrer les aspects du Systme Dcisionnel de lOrganisation o le dcideur et la machine ( le systme informatique ) interagissent pour permettre au dcideur de prendre la meilleure dcision. Nous dfinirons aussi ce quest la meilleure dcision. Cette partie sest largement inspire de louvrage de Pierre Lvine et Jean Charles Pomerol , 1990, Systmes interactifs daide la dcision et systmes experts, Editions Herms. Ces auteurs sappuient sur les travaux de H.A. Simon et de Newell aux USA et de Le Moigne qui a popularis ces travaux en France. Nous ferons rfrence de temps autre ces auteurs. Toutefois, lobjectif nest pas de redire une thorie de la dcision, mais de prsenter les concepts utiles la comprhension et la construction du systme dcisionnel de lorganisation.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 14

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.2.1 LA RSOLUTION DE PROBLME 1.2.1.1 LE PROBLME


Le mot problme est pris dans une acception trs gnrale. Nous disons quun sujet est confront un problme ds qu'il doit produire une action non rflexe sur son environnement. Exemple : Changer le systme informatique de lentreprise. Racheter une P.M.E. Mettre sur le march une nouvelle gamme de produits. Remarques : Le Sujet : au sens du terme Entreprise dfini au paragraphe prcdent. LEnvironnement : au sens le plus large: environnement personnel, relationnel, march, financier, lgislatif, politique, etc.. A ce niveau dexpos, nous ne disons rien sur ltat amont la rsolution du problme.

1.1.1.1 LA RSOLUTION DU PROBLME


Daprs Simon et Newell, la rsolution d'un problme donn s'effectue en progressant, de situation en situation, d'une situation initiale la solution. Tout se passe, un peu, comme si le problme consistait traverser une rivire sur des pierres.

S0

S2

S1

S3 S4

St

Figure 2 : comment traverser ?

Partant de la situation initiale (ou tat) S0, comment atteindre la situation St (ou tat terminal, ou la solution) ?

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 15

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.2 LESPACE DE RSOLUTION


Aussi, pour Simon et Newell, la rsolution du problme passe par la dfinition dun espace de rsolution. Cet espace de rsolution contient : lespace des tats, les oprateurs de passage entre tats, ltat initial, le ou les tat(s) solution, les informations disponibles et relatives chaque tat, augmentes des calculs relatifs l'tat courant, lavancement de la rsolution, au cheminement de la rsolution, aux tats prcdemment rencontrs lenvironnement. 1.1.1.1.1 Lespace des tats Dans le cas de la rivire, les tats sont les pierres. L'ensemble des tats s'appelle l'espace des tats. 1.1.1.1.2 Les Oprateurs En sappuyant sur le mme exemple, pour passer d'une pierre l'autre, je saute. De S0, je peux atteindre certaines pierres et pas d'autres, ainsi chaque tat Si j'associe les tats Sij que je peux atteindre partir de Si. Pour le passage de Si Sj1, j'utilise un oprateur (de saut, en l'occurrence). Mais je peux me tromper et arriver sur une pierre partir de laquelle mes forces m'interdisent d'atteindre la suivante. Je reviens alors en arrire et j'essaye un autre chemin (stratgie d'exploration avec retour arrire ou backtracking strategy). Chaque oprateur me fait passer d'un tat un autre qui me rapproche, en principe, de St. 1.1.1.1.3 La Rduction de la Diffrence La mthode gnrale pour choisir un oprateur ou construire un oprateur (raisonnement) consiste essayer de combler le foss entre les tats Si et Sj. C'est ce que Simon appelle la rduction de la diffrence . En dfinitive, c'est du rapprochement mental entre Si et Sj que nat l'oprateur. Les raisons qui me font passer d'un tat l'autre rsultent d'une apprciation des diffrences entre ces tats et de l'ide que je me fais du chemin qui me permettra de passer.
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 16

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.4 lHeuristique. L'ensemble du procd qui me permet de me promener dans l'espace d'tats, s'appelle une heuristique. 1.1.1.1.5 En rsum

La rsolution de problme part d'une reprsentation formalisable en un espace d'tats et d'une aptitude explorer intelligemment cet espace d'tats. Les tats, les oprateurs permettant de passer d'un tat un autre et les informations dont on peut disposer chaque tat, forment une reprsentation implicite du problme. C'est cet ensemble que Newell et Simon appellent l'espace de rsolution.

1.1.2 LE PARADIGME1 STI 1.1.2.1 STI


Le sigle STI 2 ou Systme de Traitement de lInformation dsigne le contexte gnral du traitement de l'information et de la rsolution de problme. Lintroduction de ce contexte gnral sinscrit dans des recherches sur les liens entre la thorie de linformation, la thorie de la gestion des organisations, la thorie de la dcision et de la gestion.

1 Paradigme , du grec paradigma , signifie modle ; Le mot paradigme sera pris au sens de T.S.Kuhn ( rle des paradigmes dans lhistoire des sciences ), cest dire, il reprsente lensemble des contingences environnementales dans lequel volue le systme. 2 On trouvera dans Demailly et Le Moigne (1986) de nombreux clairages sur la gnse du paradigme, en particulier un article historique de Simon (1986 a). C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 17

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Le paradigme STI sappuie sur 3 postulats noncs par Simon : Postulat 1 : Il est possible de construire une thorie de l'esprit au niveau du traitement de l'information. Thorie o les processus informationnels en sont les fondements premiers Postulat 2 : L'tude des processus dcisionnels est possible un niveau d'agrgation qui est celui du traitement de linformation. c'est--dire celui de la manipulation des signes . Postulat 3 : Pour dcrire le processus du traitement de linformation dans un STI, il est pos, en attendant la preuve du contraire, que le cerveau est larchtype3 des STI. . Remarque : Ce dernier postulat est le corollaire du postulat pos par Simon : Pour rsoudre des problmes avec des machines, faisons comme les gens font . Remarquons qu ce niveau dagrgation, on ne dcrit pas les phnomnes physiologiques du cerveau, mais on sintresse aux flux dinformations. A des niveaux dagrgation plus bas, des modles connexionnistes peuvent tre beaucoup plus proche de la ralit du fonctionnement des neurones.

1.1.1.1 LA REPRSENTATION DU STI


Newell et Simon, paradigme STI . Le Moigne et Demailly proposent la reprsentation suivante du

Mmoires

Processeurs

Emetteurs / Rcepteurs

Environnement

Figure 3 : le Systme de Traitement de lInformation

3 Archtype , du grec arkhetupon , signifie modle original ( premier) ou modle idal sur lequel est fait un ouvrage ou une oeuvre. C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 18

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Ainsi, cette reprsentation sappuie sur les postulats noncs ci-dessus. Le cerveau reoit des stimuli par le biais de nos cinq sens. Ces stimuli sont convertis, grce des mdiations chimiques, en signaux lectriques ou ioniques transmis par les neurones. L'information est donc reue par nos rcepteurs et circule. Une partie de cette information est stocke dans la mmoire. ( les processus physiologiques et lorganisation plus ou moins connus oprant le stockage en mmoire ne nous intressent pas ce niveau de considration.). Les stimuli reus et transmis au cerveau, ainsi que les informations mmorises, sont ensuite traits pour produire des rponses nerveuses qui actionnent nos muscles.

1.1.1.2 MATIRE TRAITE : SIGNES ET SYMBOLES


Le STI manipule (traite) des signes qui sont des formes (un ensemble de spcifications physiques) reconnaissables et reproductibles. Ces signes, comme les impulsions lectriques (ou ioniques) transmises dans les neurones, n'ont pas de sens intrinsque, c'est l'observateur ou le sujet qui donne la signification aux signes, les transformant alors en symboles.

1.1.1.3 LES DCALAGES ESPACE, TEMPS, FORME DU STI


La mmoire est le systme de dcalage des signes dans le temps. Le module de rception / mission est le systme de dcalage des signes dans l'espace. Les processeurs assurent la computation sur les signes (loi de composition interne), le dcalage de la forme.

1.1.1.4 LA DFINITION DE SIMON


Simon dfinit le STI comme un modle comportemental deux archtypes : le cerveau et les ordinateurs; ladjectif comportemental faisant rfrence au postulat 3.

1.1.1.5 EN RSUM
STI ou Systme de Traitement de lInformation est le sigle qui dsigne le contexte gnral du traitement de l'information et de la rsolution de problme. Ce STI peut tre vu comme un modle deux archtypes : le cerveau et les ordinateurs.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 19

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.2 LORGANISATION ET LE STI


Nous reprsentons par le schma ci-dessous la dfinition du STI de Simon. Nous prenons ce schma comme base de la structure dcisionnelle de lorganisation.
Niveau des Reprsentations Mentales Environnement de l'Organisation

Machine Mmoires / Processeurs

Dcideur Comptences Intellectuelles / Humaines

Environnement Intrieur et Extrieur de l'Organisation

Figure 4 : structure du Systme dcisionnel (1)

1.1.2.1 LA PERCEPTION DE LENVIRONNEMENT


La reprsentation mentale que nous nous faisons de lenvironnement est alimente par : notre perception directe de lenvironnement (Les 5 sens) notre perception de lenvironnement au travers des informations transmises par la machine. et elle sexprime au travers dun modle.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 20

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1 LA REPRSENTATION MENTALE ET LES NIVEAUX DE PROCCUPATION


Ainsi, le schma de la structure dcisionnelle volue de la faon suivante :
Niveau des Reprsentations Mentales Environnement de l'Organis ation Niveaux de Proccupations Machine Mmoires / Proces seurs Dcideur Comptences Intellectuelles / Humaines 1 2 3 4 5 6 7 Philos ophie Culture Politique Stratgique Tactique Logistique Tche

Environnement Intrieur et Extrieur de l'Organis ation

Figure 5 : structure du Systme dcisionnel (2)

Lchelle des niveaux de proccupations jouera le rle de rfrentiel. (Rfrentiel non dfinitif dans son contenu).

1.1.1.2 LES COMPOSANTES DU MODLE


Les composantes de lenvironnement qui entrent dans la reprsentation sont des composantes slectionnes dans lordre des proccupations et slectionnes parmi celles qui un instant donnes semblent rendre compte des objectifs. Calendrier des tches excuter de niveau de Chiffre daffaires, de stocks, de besoin de fonds de roulement, liste des objectifs fixs

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 21

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1 LLMENT DCLENCHEUR DU PROBLME


1.1.1.1.1 Variation entre 2 valuations de la reprsentation du modle La reprsentation mentale est value au travers des valeurs des composantes slectionnes dans le modle ou au travers du rsultat dune fonction dvaluation intgre dans le modle. Llment dclencheur ou Evnement dclencheur dun problme rsoudre sera la perception dune variation de valeurs entre 2 valuations successives de la reprsentation. De plus, la variation entre 2 valuations sera rapproch dun seuil. Ce seuil dterminera le dclenchement ou non dune action de rsolution de problme. Exemple : diminution du Chiffre daffaires de 5% sur 3 mois par rapport la mme priode de lanne prcdente. 1.1.1.1.1 Variation de ltat des proccupations De mme, on pourrait dire quune variation de ltat des proccupations peut dclencher un processus de rsolution de problme. Exemple : Vouloir passer de la 3me place la position de leader sur son march. Cette volont va entraner une tude de faisabilit, avec diffrents scnarios possibles, il y aura choix et ventuellement une critique ultrieure de la dcision. Cette volont va entraner la cration dun espace de rsolution. Vrifier une hypothse. etc....

1.1.1.1 LE PROJET DE LORGANISATION


Reprer les variations du modle de la reprsentation mentale sous-entend faire appel une norme prtablie auprs de la quelle il est possible de dfinir des seuils au-del desquels une action doit tre entreprise. Cette norme suprieure ou ce rfrentiel est le projet. Le projet peut-tre : La raison dtre de lorganisation : Exemple : La Vente par correspondance des produits de beaut. Des projets stratgiques, des sous projets.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 22

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Nous intgrons maintenant le projet dans le schma dcisionnel. Cest lui le rfrentiel du modle de la reprsentation mentale de lenvironnement.
Niveau des Reprsentations Mentales Environnement de l'Organis ation Es pace de Rsolution de Problmes Niveaux de Proccupations Machine Mmoires / Proces seurs Dcideur Comptences Intellectuelles / Humaines 1 2 3 4 5 6 7 Philos ophie Culture Politique Stratgique Tactique Logistique Tche Projet

Environnement Intrieur et Extrieur de l'Organis ation

Figure 6 : structure du Systme dcisionnel (3)

1.1.1.1 EN RSUM
Le Modle du systme dcisionnel se dcompose : Niveau Conceptuel : les Reprsentations du Projet, du modle de la position de lorganisation dans lenvironnement, de l'espace de rsolution de problme des Niveaux de Proccupations Niveau Physique : LHomme, La Machine lEnvironnement.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 23

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.2 LA DECISION
Soit laxiome suivant : entre les deux issues mutuellement exclusives d'une alternative, l'individu X qui choisit une issue la suite d'un processus mental, appel rflexion, aurait pu tout aussi bien choisir l'autre. Nous appelons ce choix : dcision ou plus prcisment prise de dcision . Nous considrons toujours qu'il y a correspondance biunivoque non ambigu entre une prise de dcision et un problme que l'on cherche rsoudre.

1.1.2.1 LES PHASES DE LA PRISE DE DCISION


Simon distingue quatre phases dans le processus de dcision : l'information ou le renseignement le dcideur se met en qute d'informations relatives aux questions qui le proccupent. : Quelles sont les solutions possibles ? Que font les concurrents ? Quelle est la pratique dans les entreprises qui ont un mtier voisin ?... Comment se segmente la clientle ? etc... la conception Dans un deuxime temps, le dcideur construit des solutions, imagine des scnarios, ce qui peut l'amener rechercher de l'information supplmentaire. le choix Ensuite, le dcideur choisit entre les diffrentes actions qu'il a t capable de construire et d'identifier pendant la phase de conception. l'valuation des choix prcdents. Aprs le choix, et dans la mesure o la dcision s'intgre dans un processus dynamique ; Une rtroaction (feed-back) intelligente permet de corriger bien des erreurs et, sur le droulement d'un processus dcisionnel. Remarques : Les tapes dcrites par Simon ne se droulent pas forcment suivant un processus purement squentiel, il peut y avoir des retours en arrire. Assez frquemment l'information et la conception contiennent dj le choix dans la mesure o le dcideur privilgie assez vite une seule action parmi celles possibles. Celle-ci est ensuite la seule documente et construite.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 24

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1 ECHELLE DES PROCCUPATIONS ET CHELLE DE NORMALISATION DES DCISIONS


Simon indique que les dcisions dans les entreprises se rpartissent sur toute la longueur d'une chelle qui va du moins normalis au plus normalis. A cette chelle de normalisation de Simon, nous faisons correspondre lchelle des proccupations du Manager ou du Dcideur. Nous faisons correspondre aussi, pour chaque niveau de proccupation, une priode indicative pour laquelle il existe une probabilit non nulle dapparition de problme entranant une prise de dcision. Ces priodes, indiques sur la figure ci-dessous sont donnes pour fixer un ordre de grandeur. Les rapports entre les ordres de grandeurs caractriseraient davantage la probabilit dapparition dune dcision quand on passe dun niveau de proccupation au niveau voisin.
Niveaux de Proccupations Echelle de Normalisation des Dcisions Trs faiblement Normalise Anne(s) Long terme Organisatio n Priode de Rfrence Impact temporel Domaines Impacts

1 2 3 4 5 6 7

Philosophie Culture Politique Stratgique Tactique Logistique Tche

Peu Normalise

Anne(s) Mois Semaine

Moyen - Long terme Moyen Terme Fonction / Service

Bien Normalise

Jour, Heure

Ponctuel

Poste de Travail

Figure 7 : chelle de Normalisation des dcisions

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 25

Conservatoire National des Arts et Mtiers de Lille


Niveaux de Proccupations

Data warehouse et data mining


Echelle de Normalisation des Dcisions Trs faiblement Normalise Echelle de Niveaux d'Agrgation / ou de Synthse

Version 1.1
Le 15 Juin 1998

1 2 3 4 5 6 7

Philosophie Culture Politique Stratgique Tactique Logistique Tche

Peu Normalise

Maximum

Maximum pour une fonction / service Bien Normalise atomique

Figure 8 : niveaux de proccupations et niveau dagrgation

De mme, nous donnons un espace-temps dimpact des dcisions prises selon le niveau de proccupation et le niveau dagrgation croissant vers la partie haute des niveaux de proccupations. Quelques caractristiques de ces dcisions4 Dcision Frquence Caractre Programme Bien Normalise Eleve do leffort normaliser le processus Routine Un programme au droulement fix : Il existe un processus connu et explicitable permettant de traiter les informations intrantes dans le STI. Disparue facturations, achats, etc. Peu Normalise faible ou peu leve exceptionnel par sa nouveaut ou son enjeu Formalise la dmarche de rsolution du problme que se pose le dcideur ncessiterait un gros effort. Utilise le choix dune campagne de publicit.

Dmarche Heuristique Exemples

Tableau 3 : tableau de dcisions normalises

4 A Dcision bien normalise et peu normalise correspondent en anglais les expressions Programmed decision et NonProgrammed decision . Cf Levine et Pommerol C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 26

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1 STRUCTURATION DU PROCESSUS DE DCISION


1.1.1.1.1 Introduction Les parties hautes de lchelle des proccupations relvent par nature de processus de dcisions peu ou faiblement normaliss. La question devient : Comment ramener une dcision au caractre exceptionnel un ensemble de dcisions normalises ? Aux questions particulires de telle organisation : Comment remplacer le Directeur financier partant en retraite ?, Comment situer lentreprise sur son march des techniques de sparation des jaunes et des blancs d'ufs ?, Comment crer une alliance stratgique avec un leader de la ptisserie industrielle ?, Comment mener une certification ISO 9000 ?, etc. A ces questions particulires, des mthodes sont labores, affines en permanence pour rpondre au mieux aux besoins du dcideur. Cest ce niveau que nous faisons la jonction avec les cabinets de conseils; exemple : Ernst & Yung pour le recrutement dun cadre financier, le Boston Consulting Group proposa la premire matrice de positionnement sur un march; AB Conseils SA spcialis dans la conduite des alliances stratgiques ou la matrise des facteurs cls de succs, lAFAQ et la dmarche qualit. Ces cabinets conseil ou daide la dcision intgrent un grand nombre dexemples dorganisation aux prises avec tel type de problme. Ils font voluer leurs mthodes et leurs modles en intgrant les retours dexprience. Ces organismes ou cabinets apportent une aide auprs du dcideur dans son processus dcisionnel. Ce qui est vrai pour les cabinets conseils en organisation lest aussi pour les centres de recherche universitaire ou industriel qui ouvrent de nouveaux espaces de rsolution de problmes dans les domaines techniques et scientifiques. Lobjectif est de normaliser le plus grand nombre de problmes dans les niveaux hauts des proccupations. Ainsi, cet objectif amne considrer une chelle propre de dcision normalise pour chaque niveau de proccupations. Par extension, nous pouvons raffecter une chelle de normalisation de dcisions dans les niveaux bas des proccupations en intgrant le management des personnes. Le passage de lorganisation taylorienne un management plus participatif, dune organisation pyramidale une organisation par projet amne introduire de la complexit dans les niveaux oprationnels et nous le verrons dans le paragraphe sur la rationalit limite.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 27

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Nous considrons que le dernier tage lexcution de la tche sur le poste de travail est absorb dans un management dquipe au niveau des du service incluant
Echelle de Normalisation des Dcisions Trs faiblement Normalise bien n. bien n. Peu Normalise bien n. bien n. bien n. Bien Normalise peu normalise peu normalise peu normalise peu normalise peu normalise

Niveaux de Proccupations Philosophie Culture Politique Stratgique Tactique Logistique Tche

Figure 9 : chelle de normalisation des dcisions

1.1.1.1.2 Rle des conseils extrieurs Un rle de structuration et de normalisation des problmes dorganisation qui se posent que quelques fois dans une entreprise mais qui sont frquents si on considre une population dorganisations. Ce Rle est interactif ; cest parce que le cabinet Conseil a accompagn une entreprise en lui proposant telle dmarche pour rsoudre son problme que ce mme cabinet peut amliorer sa mthode, ses modles grce au retour dexpriences. 1.1.1.1.3 Processus de structuration et de Normalisation
1.1.1.1.3.1 Dfinitions

Structure Canonique Une structure canonique est une structure facile trouver ou retrouver pour une large classe de sujets, partageant une mme culture. Exemple : La dcision d'accorder un prt un client est en gnral mal structure; car il n'y a pas de reprsentation canonique des clients et de leurs capacits rembourser. Cependant lorsqu'un systme expert est ralis pour faire ce travail la dcision devient normalise, mais auparavant elle aura t structure.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 28

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Qualit de la structuration Le problme, ou la dcision, parat bien structure lorsque la formulation du problme, ou des actions possibles, s'effectue l'aide d'un modle et d'une reprsentation canonique. Exemple : la paye est structure par les modles comptables ; l'approvisionnement par certains modles de la recherche oprationnelle, etc. Structuration et Modlisation. La structuration est la notion descriptive du processus de rsolution. La modlisation est davantage la dcomposition en fonctions. Ce sont les facettes d'un mme processus qui permet de rendre intelligible un contexte de dcision.
1.1.1.1.1.1 Dveloppement du Processus

Au dpart la dcision observe est baptise spontane, automatique, intuitive, on se plat y reconnatre crativit, exprience, motion, bref il s'agit de dcisions non structures. Ensuite, quand on le peut, on passe la phase de structuration et de modlisation

Normalisation impossible avec la structure choisie Dcision non structure Structuration Modlisation

Normalisation

Figure 10 : structuration & normalisation

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 29

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Schma : Branche Basse de la figure Structuration et Normalisation Les dcisions empruntant le chemin du bas sont celles pour lesquelles la normalisation suit aisment la structuration et la modlisation, elles se prsentent frquemment et entrent dans les modles classiques de comptabilit, de programmation linaire, ou de tout autre modle normalis. Ici, la structuration canonique conduit des programmes classiques qui fonctionnent bien. La procdure de dcision devient routine. Schma : Branche Haute. Dans la branche du haut, on trouve les oprations qui dans leur modlisation classique ne sont pas solubles par des algorithmes efficaces si bien que le problme est structur, mais la dcision est en gnral prise l'exprience , la suite de procdures essai erreur par des professionnels qualifis. Toutefois , un problme ou une dcision peut passer du chemin du bas au chemin du haut si l'on refuse la structuration dominante .

1.1.1.1 LA REPRSENTATION
Structurer, mais d'aprs quel modle ? Dans cette optique, le problme central est celui de la modlisation, c'est--dire de la structuration des problmes non structurs. Pour le dcideur, le problme rsoudre ne se prsente en gnral pas sous forme d'oprations simples; il y a un travail pour passer de la perception la reprsentation. 1.1.1.1.1 Reprsentation, Structuration, Process L'approche intelligence artificielle a permis de bien distinguer entre reprsentation, c'est-dire une certaine structuration descriptive de la connaissance (matrice du tableur ou les fiches d'un logiciel comme hypercard) et le processing (par exemple, le calcul sur les cellules du tableur) qui est le modle, en fait l'application au sens mathmatique du terme.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 30

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.2 Les Niveaux de Reprsentations Ce passage de la perception la reprsentation n'est pas immdiat. D'autant plus que la reprsentation admet aussi des niveaux qui correspondent plus ou moins aux niveaux de traitement. Les diffrents niveaux de reprsentation que l'on peut observer dans la rsolution de problmes sont dcrits dans la figure ci-dessous avec des exemples, les exemples du niveau n+l correspondent des sous reprsentations du niveau n.

Thorie

Mthode

Recherche Oprationnelle Gomtrie Statistiques Base de Donnes Programmation Linaire Gomtrie analytique Rgression Relationnelle

Modle

Ecriture des quations ( contraintes, fonction conomique ) Repres Equations et Courbes Choix des variables

Donnes

Nombres rels ou nombres entiers Domaine de variation des coordonnes Sries de donnes statistiques Domaines des attributs

Tableau 4 : les niveaux de reprsentation

La structuration apparat comme un pralable la normalisation. Ainsi, pour un problme donn, faisons le choix d'une rsolution par la recherche oprationnelle et optons pour la programmation linaire. Une reprsentation est construite partir des concepts pertinents ou objets : machines, ouvriers, nombre d'heures ouvres, etc., ces objets sont lis dans un modle qui met sous forme d'quations les contraintes et donne la fonction conomique. Enfin dans un dernier niveau, on dfinit quelles seront les variables entires et les variables continues.
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 31

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Il va de soi que les niveaux prcdents ne sont pas indpendants entre eux et que certains choix sont simultans, comme par exemple celui des objets et des valeurs, parfois mme la reprsentation modle-objets-valeurs se forme de faon concomitante dans la tte d'un individu. Notons aussi que la dtermination de la thorie et de la mthode stricto sensu se font souvent ensemble, si bien qu'on peut les regrouper en un terme de mthode ou mieux, de planification. Nous dsignerons les deux niveaux infrieurs de reprsentation sous le nom de modle ou modlisation. Cette partition en deux niveaux correspond alors ce qui a t observ lors de la rsolution de problmes, le niveau suprieur tant celui des plans de Newell et Simon (1972). Comme nous venons de le dire, l'indpendance entre les niveaux de reprsentation n'est pas de rgle. Piaget a mme montr que les niveaux de reprsentation ne s'acquirent que progressivement, en passant de l'un l'autre grce un processus d'abstraction rflchissante . 1.1.1.1.3 Equilibration et Modles Pour Piaget, toute action se place dans le cadre d'une reprsentation (pour nous d'un modle) qui s'enrichit par assimilation (attraction de nouveaux objets par le modle) et accommodation (particularisation du modle), l'ensemble de ce processus d'enrichissement en fonction des expriences (actions et rsultats des actions) s'appelle l'quilibration. L'chec de l'quilibration va conduire un autre modle suivant le schma suivant inspir de Courbon et Stabell (1986) et Ramaprasad (1987). Action Rsultat de laction espr diffrent de celui espr quilibration russie quilibration impossible renforcement du modle spcialisation ou gnralisation du modle construction dun nouveau modle par abstraction rflchissante.

Tableau 5 : Modle-Action-Equilibration

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 32

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.4 Les Niveaux de Reprsentation Il nous semble que chaque niveau de reprsentation, sauf le plus bas, est fixable , le niveau modle, le niveau mthode le niveau thorie. A chacun de ces niveaux de fixation correspondent des STI diffrents. STI 1 : Quand la mthode est fixe, le systme doit possder une mmoire des modles et des processeurs de modles. STI 2 :Quand le modle est fix, les objets le sont aussi ipso facto, seules les valeurs peuvent changer. Dans ce cas l, des processeurs arithmtico-logiques simples sont suffisants pour procder. Exemple : dans les anciennes bases de donnes de type fichier, on est juste capable d'ajouter des donnes et de faire des interrogations prdtermines. 1.1.1.1.1 Modle Dfinition : Un modle a toujours une traduction immdiate en un programme informatique. Le modle correspond au processing et la computation s'exerce sur les reprsentations. 1.1.1.1.1 1er Espace de rsolution Nous avons donc un premier espace de rsolution form de modles. C'est--dire qu'un tat de cet espace est un modle, les oprateurs de cet espace sont des oprateurs de choix de modles, la rduction de la diffrence se rfre la validit des modles. Ce systme de production fonctionne pour le choix du modle.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 33

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.2 2d Espace de Rsolution A un tage au-dessous, pour un modle fix, le systme, afin d'valuer les rsultats, fonctionne dans un espace de rsolution form d'tats du type objets valus, un objet valu tant un couple (objet, valeur). Les oprateurs portent sur les valeurs, la rduction de la diffrence porte sur le rsultat. Disons enfin qu'il existe des STI pour lesquels les mthodes ne sont pas fixes. C'est le cas par exemple en statistique. Le systme vous donne le choix, mthode de Box-Jenkins ou l'analyse des donnes, puis vous choisissez votre modle relatif la mthode slectionne, enfin vous choisissez vos sries. En rsum, les reprsentations forment le bagage culturel acquis qui nous permet d'interprter nos perceptions et d'effectuer une premire structuration statique des informations qui nous parviennent de l'environnement. Une reprsentation est structure quand on peut lui associer un modle. Les 4 Niveaux de reprsentation peuvent se dcomposer en 2 niveaux sur lesquels des STI peuvent oprer la rsolution de problme par dmarche heuristique : 1. Le niveau mthode-Modle 2.Le niveau Modle-Objet valu.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 34

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1 LE PRINCIPE DE RATIONALIT LIMITE


1.1.1.1.1 Les Modles Fonction optimise Les modles des mathmatiques et de la recherche oprationnelle, qui ont reprsent jusqu'ici la base de la majorit des SIAD, reposent sur les hypothses suivantes. Toutes les actions possibles sont identifies avant le traitement. Il y a un prordre total sur les actions qui est reprsentable par une fonction d'utilit explicite dont on peut donner l'expression mathmatique. Les intrants (paramtres, donnes) sont numriques, et contiennent toute l'information utile. La meilleure dcision est celle qui maximise la fonction d'utilit. 1.1.1.1.1 Hypothses de la rationalit limite Bien souvent ces hypothses ne sont pas ralistes, en particulier la seconde, surtout quand l'individu est confront des objectifs contradictoires (cadre de la modlisation multicritre). La vision propose par Simon, s'inspire du comportement humain. Il faut raisonner dans le cadre d'un modle qui prend en compte les lments suivants : Les dcisions humaines, qu'elles soient indpendantes ou non, sont prises une par une, dans des domaines limits suivant un processus temporel. L'apprciation du futur est limite et, en tout cas, on en n'value pas tous les scnarios. Il n'existe pas de fonction d'utilit globale et il n'est pas ncessaire d'en construire, d'autant plus que nos dsirs sont souvent contradictoires. A l'intrieur du processus de dcision, la phase d'information est la plus longue, l'information conditionne, en quelque sorte, trs fortement la dcision. 1.1.1.1.1 Consquences Si l'on accepte ces hypothses dites de la rationalit limite, on en dduit : un processus progressif de dcision est un comportement rationnel (limit). Le processus accepte une sriation dans le temps des dcisions mme dpendantes, ce qui entrane que l'ordre de prsentation des actions possibles peut influer sur le choix. les individus n'optimisent pas, car nous sommes bien en peine de savoir quoi optimiser.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 35

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.1 Rationalit Limite et Dcision Satisfaisante la rationalit limite se rsume la recherche d'une dcision satisfaisante et l'affirmation que l'on peut organiser rationnellement le processus temporel de recherche de cette dcision. C'est--dire que la rationalit est dans la procdure. Ce que cherche le dcideur c'est une action satisfaisante compte tenu de ses fins. Cependant, la rationalit limite ne doit pas tre comprise comme le refus de tout apport normatif. Le Paradigme de la Prise de dcision dirait que : la prise de dcision est un processus temporel, faisant appel de faon non squentielle et parfois rcursive aux fonctions information, conception, choix, feed-back . A cause de nos limites cognitives, ce processus n'est pas rationnel dans son ensemble (rationalit limite), ce qui entrane qu'il n'est pas dterministe en ce sens qu' situation gale, deux individus diffrents arriveront deux dcisions diffrentes, mais que la faon de chercher (problem solving) tend tre rationnelle compte tenu des capacits, des acquis et des reprsentations de chaque individu (rationalit procdurale).
Remarque :

En admettant mme que l'on puisse donner un sens l'expression dcision optimale , le cot de la recherche de l'optimalit risque d'tre prohibitif (c'est par exemple le cot d'tude de toutes les actions possibles). Mettre le cot de la recherche dans la fonction optimiser ne rsout pas le problme car l'on entre alors dans un jeu de spcularit infinie. En effet, il faudrait aussi considrer le cot de la recherche du cot, etc. Nous positionnons les qualits de la rationalit sur lchelle des proccupations.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 36

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Niveaux de Proccupations 1 2 3 4 5 6 7 Philosophie Culture Politique Stratgique Tactique Logistique Tche

Echelle de Normalisation des Dcisions Trs faiblement Normalise

Rationalit de la dcision

Rationalit Limite Peu Normalise Rationalit Totale Bien Normalise

Tableau 6 : niveaux de Proccupation et rationalit Limite

1.1.1.1.1 rationalit limite et paradigme STI Le lien avec le paradigme STI consiste dire que : Les processus rationnels sont normalisables et programmables un processeur peut donc remplacer le cerveau et, de fait, les recherches heuristiques sur ordinateur sont de la rationalit limite en action . Les raisonnements sont formalisables en rgles de production. Une telle rgle se met alors sous la forme : SI situation ALORS action.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 37

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.2 Rationalit limite dans les programmes la rationalit est dans le processus de dcision; la rationalit limite en action conduit explorer intelligemment un espace de rsolution. Il existe un programme permettant cette dmarche heuristique donc cette gestion des points de contrle. Les possibilits aux points de contrle ( passage dun tat un autre ) sont les suivantes : un nud (tat) donn, choisir un oprateur. un nud donn, dcider si l'on doit continuer partir de l ou pas ; un nud donn, dterminer s'il mrite d'tre conserv en mmoire pour un ventuel retour arrire ; quand on dcide d'abandonner un nud, choisir le nouveau nud d'o l'on va continuer le processus. Ainsi, il existe diverses mthodes qui vont permettre de diffrencier les heuristiques. L'valuation qui consiste savoir si l'tat o l'on se trouve est digne d'intrt, soit pour continuer l'exploration partir de lui, soit pour tre mis en rserve afin d'tre dvelopp par la suite, cette valuation est le point le plus important de toute recherche heuristique.

1.1.1 LE SIAD5 OU SYSTME INTERACTIF DAIDE A LA DECISION


1.1.1.1.1 Dfinition Un SIAD est un Systme Informatique de traitement de linformation et de rsolution de problme pratiquant la recherche heuristique.

5 SIAD , le terme anglais est Decision Support System ou DSS. C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels

Page 38

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.2 Interactif Interactif avait un sens fort dans les annes 70, car ils sopposaient saisie par cartes perfores , traitement par lot . Aujourdhui, les accs la machine sont des transactions interactives Homme Machine. Toutefois, le sens Interactif des annes 70 na pas chang. Le SIAD tait interactif parce quil laissait le contrle lHomme pour choisir ou dcider du modle appliquer lors de ltape suivante. Nous verrons dans le paragraphe suivant 3 siad lmentaires qui mettent la disposition de lutilisateur des bibliothques de mthodes et de modles et laissent au dcideur, le soin de btir son cheminement heuristique. En effet, les objets valus, correspondant un tat, sont dfinis, un certain nombre de computations, effectues par un processeur d'tat, fournissent, suivant un programme informatique non interactif, des extrants (des donnes de sortie), ce sont ces dernires valeurs qui vont tre apprcies par l'utilisateur pour dcider de la suite de la recherche heuristique. Nous pouvons donc affirmer au niveau le plus bas

un SIAD est un programme de recherche heuristique dont la fonction d'valuation se prsente chaque tape sous la forme d'un modle.
1.1.1.1.3 SIAD & Aide la dcision Aide la dcision s'oppose prise de dcision automatique et par consquent processus sens unique. la notion d'aide la dcision s'interprte comme une aide la recherche des solutions satisfaisantes en utilisant un systme de recherche heuristique. Un SIAD est un systme qui augmente la qualit des processus de dcision plutt que leur productivit. il faut, lors de la modlisation, utiliser certains modles normatifs et largir les connaissances et les capacits du dcideur ; par exemple, introduire la dcision multicritre alors qu'elle tait monocritre, introduire du qualitatif quand le dcideur n'utilisait que des raisonnements numriques, etc.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 39

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.2 LES SIAD LMENTAIRES


Nous prsentons les siad lmentaires selon les 3 items suivants : la Thorie, La Mthode, Le Modle.

1.1.2.1 LE TABLEUR
1.1.2.1.1 Thorie la Thorie de rsolution de problme : tout problme se rsout l'aide de comptes. 1.1.2.1.2 Mthode La mthode est le moyen mis en uvre : une matrice informatique. La mthode consiste mettre des items dans un tableau matriciel. La mthode du tableur est fixe. 1.1.2.1.3 Modle On construit le modle en choisissant des objets (concepts) et les relations (quations) entre les objets. 1.1.2.1.4 Processeur dtats Cette grille de calcul (processeur d'tat) met jour le tableau aprs chaque modification. 1.1.2.1.5 S.T.I. Le modle tant fix, on entre dans un systme de rsolution de problme o chaque tat est une grille et les oprateurs sont ceux qui servent modifier les valeurs de la grille. 1.1.2.1.6 Organisation de lensemble des modles Il n'y a pas d'exploration de style systme de production sur l'ensemble des modles, le changement ce niveau est irrvocable . Cest lutilisateur qui gre sa base de modles; celle-ci nest pas explicite; sa construction en est laisse lutilisateur. Les modles sont contenus en puissance dans les fonctions du du tableur mises la disposition de lutilisateur. Ou plutt, je dois organiser le changement.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 40

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.2.1.7 La recherche Heuristique sur les modles La recherche heuristique nest pas aide par la machine; cest lutilisateur de grer cette dmarche en construisant les modles qui lui semblent opportuns de crer pour rduir la diffrence. Au niveau suprieur, le modle peut varier, changement de variables explicatives, des quations, etc. 1.1.2.1.8 La recherche Heuristique sur les valeurs Cest par une rduction de diffrence par rapport au rsultat que va sorganiser la recherche heuristique des bonnes valeurs. Exemple : les items des soldes intermdiaires de gestion seraient placs dans les lignes de la matrice et aux colonnes correspondraient des priodes de temps (annes, mois ou jours). le problme est : Augmentation de la capacit d'autofinancement de lentreprise. la dcision doit permettre dapporter une solution ou au moins une amlioration. 1.1.2.1.9 Organisation de lensemble des modles Une extraction de base de donnes correspond un sous-modle; dplacement dans les sous-modles.

1.1.2.2 SYSTME DE GESTION DE BASES DE DONNES


1.1.2.2.1 La Thorie Base de donnes La thorie consiste dire que tout problme se rsout par l'accs aux bonnes donnes qui doivent ou devraient tre quelque part. 1.1.2.2.2 La mthode La mthode est caractrise par le moyen mis en oeuvre ; exemple : des fiches papier(de police), des fichiers, des bases de donnes hirarchiques des bases de donnes relationnelles 1.1.1.1.1 Le Modle Le modle est lensemble des entits, des attributs et les relations dfinis par lutilisateur.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 41

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.2 Ltat Soit une requte pour connatre les clients qui paient plus de 30 jours. Ltat est la relation engendre par la requte 1.1.1.1.3 le processeur d'tat Le processeur dtat est le processeur de requte qui fait les jointures, les projections et les slections ncessaires pour valuer l'tat engendr (relation) par ma demande. 1.1.1.1.4 Dmarche Heuristique sur les Modles le SGBD permet d'introduire de nouveaux attributs et de nouvelles relations. c'est--dire de changer les modles. Par contre, on volue de modles en modles plus large ou plus complet. Le choix du modle M+1, en gnral, est tel que le modle M est contenu dans le modle M+1. ( dans le cas contraire, il y a risque de pertes de donnes ) Par contre, on peut tre amen travailler sur des sous-modles. Toutefois, tout est possible. Remarque : A ce mtaniveau l'valuation porte en partie sur la valeur des concepts. Un SGBD est donc un SIAD deux niveaux tout comme le tableur. Il nexiste pas daide dans le choix du modle suivant. Cela implique : Le dcideur doit connatre sa bibliothque de modles pour une meilleure dmarche heuristique.

1.1.1.1 GNRATEUR DE SYSTMES EXPERTS


Nous insrons entre Thorie et Mthode quelques concepts sur les systmes experts. 1.1.1.1.1 La Thorie La thorie : tout problme peut tre rsolu la suite de raisonnements qui sont dcomposables en rgles logiques. Des rgles logiques, soit au sens de : la logique des propositions ( mode 0+ ). de lemploi de variables dans la logique des prdicats ( mode 1 )..

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 42

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.1 Remarque Selon la rationalit prsente dans les processus de dcision (Cf. le paragraphe sur la rationalit limite) , les raisonnements sont formalisables sous forme de rgles de production du type : SI situation ALORS action Type dductif : si a vraie alors b vraie; cette rgle est une infrence, la partie gauche, la prmisse, la partie droite , la conclusion. 1.1.1.1.1 Exemple dune base de faits niveau des investissements = important environnement social = bon cadre juridique = stable protection environnement = croissante environnement = acceptable rseau commercial = adapt sous-traitance = instable faisabilit technique = moyenne risque faisabilit = moyen 1.1.1.1.1 Prsentation succincte des systmes experts Un systme expert comprend une base de faits, un ensemble de rgles et une structure de contrle. En gnral, la base de faits est divise en 2 parties : la base de faits elle-mme et la base des faits que lon voudrait prouver ou buts . Le fonctionnement du Systme Expert correspond la figure ci-dessous.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 43

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Choix d'une Rgle applicable Ensemble de Rgles

Contrle

Base de faits

Excution de la Rgle

Modification de la base de faits

Non

La Condition d'arrt est suffisante

Oui FIN

Figure 11 : fonctionnement dun systme expert

1.1.1.1.2 Reprsentation des connaissances On distingue : Les connaissances assertionnelles, connaissances de la base de faits ou connaissances dclaratives ou faits bruts. Les connaissances contenues dans les rgles sont des connaissances opratoires. Lensemble des rgles et des faits constituent une base de connaissances. Les connaissances du systme de contrle sont des connaissances de stratgies de contrle. Elles disent dans quel ordre appliquer les rgles pour rsoudre le problme. 1.1.1.1.1 Reprsentation des faits Une reprsentation des faits est souvent du type <ATTRIBUT><OBJET><VALEUR> Exemple < Rendement-81><Action Michelin><7%> Elle peut se faire selon diffrentes mthodes dont lemploi des prdicats ou lutilisation des Frame ou forme-objet o une unit dinformation regroupe un certain nombre de rubriques.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 44

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Nom EST UNE Croiss ance 84 Niveau Risque

PETROLE BRANCHE 5% FORT

Nom EST UNE Croiss ance 84 Niveau Risque

CHIMIE BRANCHE 8% MOYEN

Nom EST UNE

TOTAL firme

Nom EST UNE

FAIT PARTIE DE PETROLE Cours + haut Cours + bas Rendement 84 Dividende Croiss ance CA

ELF firme PETROLE ET FAIT PARTIE DE CHIMIE Cours + haut Cours + bas Rendement 84 Dividende Croiss ance CA

Nom Capital Social EST UNE firme TOTAL Montant Nombre Actionnaires Act Principaux 1 2

Nom Capital Social EST UNE firme ELF Montant Nombre Actionnaires Act Principaux 1 2

Nom Production EST UNE firme ELF Nb Units France Nb Units USA

Figure 12 : diffrentes formes-objets relies entre elles dans un rseau smantique

1.1.1.1.1 Infrence incertaine Cette notion permet dattribuer un niveau de confiance une rgle. soit un nombre compris entre 0 et 1. 1.1.1.1.2 Choix dune rgle applicable Les propositions dune base de faits sont vraies. ( A B ) C Le systme examine si A et B sont contenues dans le fichier base de faits si oui, alors ( A B ) C devient une rgle applicable si le systme dcide de lappliquer alors C est dtache et ajoute la base de faits.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 45

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.3 Le moteur dinfrence Le moteur dinfrence est le module qui gre les oprations filtrage, slection, excution, test darrt. Ces oprations forment le cycle du moteur dinfrence. La Restriction => limitation du nombre de rgles filtrer Le Filtrage => lection dun groupe de rgles lexcution. La Slection => ordonnancement squentiel des rgles prsenter lexcution. LExcution de la rgle => gnration dun fait nouveau ( en gnral ) Test darrt. 1.1.1.1.4 Types de Fonctionnement : Chanage avant, arrire, mixte. Un Systme gouvern par les faits fonctionne en chanage avant . SI a ALORS b ; soit a vraie, et b un fait que nous considrons comme un fait vrai que nous voudrions prouver Un Systme gouvern par les buts fonctionne en chanage arrire . SI a b c ALORS d ; pour dmontrer d vraie, il faut dmontrer que a vraie, b vraie, c vraie. Ainsi le processus commence, dmontrons que a vraie , si a est elle mme le rsultat dune condition , le systme devra remonter aux prmisses de la condition et ainsi de suite. Puis faire le mme processus sur b et sur c. Le Systme est chanage mixte sil est gouvern la fois par les faits et par les buts. 1.1.1.1.5 Logique des Prdicats Soit la rgle suivante : SI INDICE-BRANCHE (y, HAUSSE) et si APPARTIENT (x,y) ALORS ACHETER (x) exemple si y = Ptrole et si indice-branche est en hausse et si x=TOTAL alors on peut acheter des actions Total Cette formulation des rgles permet une application indpendante des faits. 1.1.1.1.6 La Thorie Nous reprenons la prsentation canonique des siad lmentaires Thorie, Mthode, Modle La thorie : tout problme peut tre rsolu la suite de raisonnements qui sont dcomposables en rgles logiques. Des rgles logiques, soit au sens de : la logique des propositions ( mode 0+ ). de lemploi de variables dans la logique des prdicats ( mode 1 ).

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 46

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.1 La Mthode La mthode est l'emploi de rgles conjointement avec une structuration des connaissances ad hoc : rseaux smantiques, certains rseaux de formes-objets. 1.1.1.1.1 Le Modle Ici, le modle n'est pas fix, il correspond la base de rgles qui sera ralise.
Exemple :

je souhaite acheter une PME. Pour cela je vais faire un modle d'valuation des PME. Je ferai intervenir des concepts quantitatifs (comme le chiffre d'affaires, le rsultat brut d'exploitation, etc.), et qualitatifs (comme la qualit des dirigeants et du personnel). Ce modle ou base de rgles me permet de faire de multiples valuations de PME. 1.1.1.1.2 Etat Chaque tat est un tat de la PME (paramtres qualitatifs et quantitatifs, c'est--dire base de faits). 1.1.1.1.3 Oprateur Des oprateurs permettent de changer ces paramtres. 1.1.1.1.4 Processeur dtat L'valuation d'un tat (processeur d'tat) porte sur le rsultat de l'expertise et l'obtention d'une valuation de la PME qui semble raliste. 1.1.1.1.5 Recherche Heuristique sur les modles Il existe un deuxime niveau de recherche heuristique, c'est celui qui permet de faire varier les modles de l'entreprise. Chaque tat est un modle de l'entreprise (sous forme de rgles, d'objets et de relations entre les objets, un graphe de schmas par exemple). Les oprateurs sont des oprateurs de modification des objets et des relations entre objets (schmas).

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 47

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.6 Remarques Chaque tat, sous forme de base de rgles est stockable en mmoire et fonctionne avec tout tat du niveau infrieur ou base de faits. L'valuation ce niveau porte sur la qualit de la base de rgles, sa richesse, sa cohrence et sa compltude. En Rsum : les 3 Thories de rsolution de problme runies disent ceci : Pour rsoudre un problme, il faut dabord accder aux bonnes donnes ( le SGBD remplit lopration de filtre ( recherche heuristique sur les modles), puis positionner les items dans une matrice et leurs valeurs dans les cellules de la matrice ( le tableur remplit ce rle de matrice ) enfin rechercher, par une dmarche heuristique, la succession de modles qui vous amnera la solution du problme par rduction progressive de la diffrence. Ces rsolutions gnrent de la connaissance qui peuvent alimenter une base de connaissance ( base de faits et base de connaissances procdurales (rgles )) dun systme expert sur laquelle le moteur dinfrence gnrera de nouvelles connaissances ou confirmera des faits ou des hypothses.
Remarque

la base du SGBD est un ensemble de tables contenant les bonnes donnes. Tableur et Base du SGBD ont donc la mme structure cellulaire. Sur le SGBD, la mthode consiste permettre dtablir des liens entre les cellules. Sur le tableur, la mthode permet ltablissement des expressions de fonction entre les cellules. Ainsi, un transfert dune base de donnes vers un tableur est une opration miroir ou neutre.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 48

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1 LE SYSTME DCISIONNEL


Nous reprenons le modle du systme dcisionnel de lorganisation que nous avons construit prcdemment et nous dveloppons llment Machine pour le dcomposer en siad lmentaires. Remarque : Nous cherchons illustrer au travers dune reprsentation simple les quelques relations entre les lments exposs dans ce sujet en sachant que la reprsentation comporte ses propres limites.

Niveau des Reprsentations Mentales Environnement de l'Organisation

Projet

Espace de Rsolution de Problmes Niveaux de Proccupations

Machine Mmoires / Processeurs

Dcideur Comptences Intellectuelles / Humaines

1 2 3 4 5 6 7

Philosophie Culture Politique Stratgique Tactique Logistique Tche

Environnement Intrieur et Extrieur de l'Organisation

Figure 13 : le systme dcisionnel

Ainsi, la structure de la machine intgre les 3 siad lmentaires et la partie du schma Reprsentation mentale intgre de lensemble des Thories, Mthodes et Modles, celles et ceux qui sont reconnus par la machine.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 49

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Ensemble des Thories, Mthodes, Modles des Reprsentations Mentales Ensemble des Mthodes et Modles reconnus par la machine

Machine
Sstmes Experts : Base de Connaissances

Dcideur

TABLEUR

( Dialogue )

SGBD

Mmoires / Processeurs

Figure 14 : structure de la machine

Cette partie a permis de dfinir des concepts utiles cerner le Systme dcisionnel de lorganisation . Le Systme Homme-machine Les caractristiques de la dcision. En rsum, nous rappelons les chelles lies lchelle des proccupations du dirigeant ou du dcideur.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 50

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Niveaux de Proccupations

Echelle de Normalisation des Dcisions Trs faiblement Normalise

Priode de Rfrence

Impact temporel

Domaines Impacts

1 2 3 4 5 6 7

Philosophie Culture Politique Stratgique Tactique Logistique Tche

Anne(s)

Long terme

Organisatio n

Peu Normalise

Anne(s) Mois Semaine

Moyen - Long terme Moyen Terme Fonction / Service

Bien Normalise

Jour, Heure

Ponctuel

Poste de Travail

Figure 15 : chelles lies l'chelle des niveaux de proccupations (1)


Niveaux de Proccupations Echelle de Normalisation des Dcisions Trs faiblement Normalise Echelle de Niveaux d'Agrgation / ou de Synthse

1 2 3 4 5 6 7

Philosophie Culture Politique Stratgique Tactique Logistique Tche

Peu Normalise

Maximum

Maximum pour une fonction / service Bien Normalise atomique

Figure 16 : chelles lies l'chelle des niveaux de proccupations (2)

A partir de la structure du systme dcisionnel , nous positionnerons les outils daide la dcision dans la conclusion finale de la Problmatique Entreprise .
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 51

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 LE CONTENU INFORMATIF DU SYSTME DCISIONNEL


Aprs la problmatique de la structure du systme dcisionnel de lorganisiation, nous prsentons le contenu informatif de ce systme dcisionnel.

1.1.1 CONTENU INFORMATIF ELEMENTAIRE


Latome informatif du contenu informatif est lchange conomique ( change dun produit ou service et dun flux financier ) entre deux Tiers. Nous dsignons cet change sous le terme Acte conomique ; nous en faisons lextension toute prestation faite par une administration publique ou prive auprs de ses administrs, sachant que le flux financier peut-tre ventuellement nul. Nous tendons cette dfinition galement aux relations Clients-Fournisseurs entre 2 services dune organisation. Le contenu informatif commence par le traage des vnements de base que sont ces actes conomiques. Leur comprhension et les explications postriori trouveront des lments de rponse dans le contexte de ces vnements basiques. Ce contexte est en tout premier lieu constitu par le contrat qui lie les tiers concerns, puis plus largement viendront les lments extrieurs, march, concurrence, etc..

1.1.1.1 ACTE ECONOMIQUE


1.1.1.1.1 Structure de lacte conomique Lacte conomique se ralise dans une relation contractuelle exprime ou non exprime ventuellement , sil sagit dune administration. Exemple de Socits : Un Groupe de lingerie passe un contrat de rfrencement de 4 marques de lingerie fminine avec un groupe Distributeur. Le contrat prvoit la prise de commande par les services achats du distributeur, les livraisons aux centres logistiques, lenvoi de la facturation au sige, etc... priode : du 1er Janvier 99 au 31 dcembre 99, Tarif : tel niveau de prix, remises, avec p campagnes promotionnelles, avec x manifestations ponctuelles et les utilisant lEDI pour la prise de commande, lavis de livraison, la remonte des ventes vers le fournisseur, via le rseau ALLEGRO.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 52

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Exemple dAdministration :

Le service dtat civil de la mairie est ouvert du Lundi au Vendredi de 9h 12h, de 14h 17h et le Samedi de 9h 11h. Les actes conomiques de ce service sont les dlivrances de fiches dtat civil, de certifications conformes de photocopie, dextrait de naissance, etc... La structure de lacte : 2 Tiers ( Contrat dchange ( n actes conomiques)). Acte conomique ( tiers1, tiers2, produit, prix dchange, date, No de contrat ) 1.1.1.1.1 le Contrat Le contrat pourrait tre dfini de la faon suivante : Contrat ( No , tiers 1, tiers 2 ( Type dactes conomiques ou prestations, Liste des clauses ) ) Exemple : Clauses Juridiques, dassurance, de livraison, de facturation, de rglement, de garantie, de service aprs-vente, de maintenance, de fin de vie du produit, etc... ) Si n tiers interviennent dans un contrat, on peut toujours dcomposer en m contrats de tiers pris 2 2. 1.1.1.1.2 Lenvironnement Lenvironnement de lacte conomique est constitu dabord du contrat et ensuite de ltat de la conjonction conomique, du march, et de nombreux facteurs denvironnement que nous reprendrons daprs le schma des forces de Porter. Cet environnement est constitu de tous les vnements perus et reprs par lorganisation et qui ont eu un impact sur elle. 1.1.1.1.3 base de faits La Base des actes conomiques est la base des faits.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 53

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.4 Base de Comprhension la base des vnements relatifs la comprhension sont : les contrats, les vnements non rptitifs fort impact, lvolution extrieure. Nous prsentons un modle MCD schmatique du contenu informatif du systme dcisionnel. Exemple d'vnements : Une Campagne promotionnelle dans la valle du Rhne sur les fruits frais le dpart du responsable commercial lors du lancement dun nouveau produit, etc...
Environnement

Base de Faits

Tiers Code Coordonnes Code

Contrat

Evnements Code Acte Economique Code Contrat_Code Produit_Code Date Prix Intitul Domaine Priode Espace

Tiers_1_Code Tiers_2_Code Liste des Clauses

Figure 17 : modle des donnes simplifi du contenu informatif de base du systme dcisionnel

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 54

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1 LES ACTIVITS


Nous avons prsent, en introduction de cette partie, les types dentreprises ou organisations concernes par notre sujet. Nous croisons type dorganisations et type dactivits et nous ne retenons que les intersections renseignes; nous les listons simplement. 1.1.1.1.1 Les Activits Industrielles Les Activits Industrielles dans les secteurs primaire, secondaire, tertiaire. 1.1.1.1.1 Les Activits Administratives Les Activits Administratives dans les domaines de lEducation, de la sant, de la scurit publique, larme, la Police, la gestion des collectivits territoriales etc... 1.1.1.1.1 Les Activits Associatives Les Activits Associatives Culturelles, Sportives, de Loisirs, sociales, caritatives, etc...

1.1.1 STRATGIE DES ORGANISATIONS


Pour approcher le contenu informatif des systmes dcisionnels, nous pouvons suivre la dmarche stratgique de lorganisation. Elles croisent en gnral diffrentes approches qui vont se retrouver dans le systme dcisionnel de lentreprise.

1.1.1.1 LE DIAGNOSTIC EXTERNE


un tat des lieux ( lanalyse de lenvironnement : Listes des Menaces et des Opportunits ) March : Les segments de clientle, la couverture, la position sur les matrices BCG, Mc Kinsey ou autres matrices. Relations financires Actionnaires, Banques, march Boursier Evolution Technologique Environnement lgislatif et rglementaire Les Tendances conomiques Les Evolutions sociales et des comportements. Les Brevets et les marques dposes. Etc.. Nous dveloppons un aspect de lenvironnement extrieur.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 55

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1 ANALYSE DE LENVIRONNEMENT


En reprenant le diagramme des Forces de Porter, immerg dans un environnement dont on notera les composantes significatives (Cf. le schma : les composantes environnementales sont donnes titre dexemple, la liste nest pas exhaustive. Ce schma peut aussi tre pris en considration par une organisation qui se trouve dans la priphrie environnementale. Exemple Un Organisme de sant sera sensible laspect dmographique, pidmiologique dune rgion, des risques pidmiologiques des rgions voisines, etc....

France - Europe - Monde Environne ment Institutionne l Environne m ent Dive rs

Environne ment Economique

Politique

Nouveaux Entrants Concurrents Fournisseurs St / I.F. / S.Ass. Produits de Substitution Clients

Dmographique

Lgislatif

Culturel Agents d'Influence

Administratif

Social

Environne m ent Te chnologique

Ecologique

Figure 18 : l'entreprise, les 5 Forces de Porter, lenvironnement

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 56

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.2 LE DIAGNOSTIC INTERNE


Analyse des ressources internes de lentreprise Dfinition ou redfinition des ses facteurs cls de succs, comptences distinctes ou atouts concurrentiels. La Responsabilit sociale de lentreprise. Le systme de valeurs de ses dirigeants Nous listons en prenant la grille des 5 M. Marketing ( positionnement des 4 P ) Money ( Fonds de Roulement, BFR, Trsorerie , ... ) Machine ( savoir-faire, .. ) Men 5 Ressources Humaines, Composition, Nombre, Climat social, capacit dadaptabilit,...) Management fonctionnement de lentreprise, structure du Management.

1.1.1.1 APPROCHE CRATION DE VALEUR


Nous prsentons le schma dune autre approche Cration de Valeur pour montrer la prise en compte des lments intrieurs ( recherche et dveloppement, Units de Productions, Savoir-Faire Managriaux, etc.... ).
Cration de Valeur

Accroissement de la Diffrenciation

Baisse des cots relatifs

Savoir faire Markting

Savoir faire Technologique

Productivit

Cot des Facteurs

Savoir-faire managriaux

Figure 19 : diffrenciation par la technologie et la baisse des cots

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 57

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Enfin, une approche ajoutant la prise en compte de la satisfaction client.


Forces Concurrentielles

Satisfaction de l'utilisateur

Profit du ProducteurVendeur

Prix

Diffrenciation Qualit de l'offre

Cot

Figure 20 : approche centre sur le prix

1.1.1.2 CONCLUSION
Le systme dcisionnel intgre lensemble du systme dinformation de lorganisation.

1.1.1.3 LENSEMBLE DES DCISIONS STRATGIQUES


Pour terminer laspect stratgique, nous montrons la correspondance avec la dfinition dun espace de rsolution de problme.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 58

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Lensemble des dcisions stratgiques prises ou prendre reprsentent lespace dtats dun espace de rsolution de problme.
Ef E4 E4 E t at O bje ct if

E3 E2 E2

E3

E1

E1

Ei

E t at In it ia l E n se m ble de D c isio n s de n iv e a u st rat gique.

A ujo urd'h ui

+ 1 an

+ 2 an s

+ 3 an s

Graphique 1 : graphe des dcisions de niveau de proccupation stratgique

Amener lorganisation du point A initial au point B tat final est une gestion de projet qui peut se mener comme une gestion de projet canonique . La relecture, posteriori du chemin parcouru par rapport aux objectifs, se comprendra dautant mieux que les vnements importants auront t tracs.

1.1.2 LE CONTENU INFORMATIF DE LA PARTIE HAUTE DES PROCCUPATIONS


La manire de nourrir la partie haute des niveaux de proccupations influera sur les dcisions des niveaux plus bas. Cette partie haute peut sintresser aux volutions sur des priodes plus longues; rintgrer le pass de lentreprise pour mieux se projeter dans lavenir. Nous donnons quelques caractristiques du changement de paradigme en citant Herv Srieyx et Martin Forest du Groupe Innovation.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 59

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.2.1 PASSAGE DU COMPLIQU AU COMPLEXE


Le management des entreprises sinscrit dans un environnement complexe. Il faut passer de la gestion du compliqu la gestion de l incertain, de lalatoire, de limprvisible . La gestion du compliqu est la gestion de tout ce qui est rductible lanalyse; La gestion du complexe est le domaine dans lequel il nous faut avancer dans un tat desprit de rationalit limite et dorganisation apprenante en permanence.

1.1.2.2 LA MONDIALISATION
La mondialisation ou Lespace de libre change au sens anglo-saxon du terme.

1.1.2.3 LE CLIENT
Un client de plus en plus difficile satisfaire, versatile, et qui nest pas ncessairement argent entranant une organisation oriente vers le client et inversant de haut vers le bas, la traditionnelle pyramide hirarchique. Modification dorganisation Pyramide vers la Pyramide et le Rseau. Dveloppement du management par projet.

1.1.2.4 DES CONTINGENCES VOLUTIVES


Un contexte gnral voluant rapidement et entranant une ncessit de sajuster au plus vite; rduction des portes dans le temps des plans stratgiques.

1.1.2.5 UN NIVEAU SCOLAIRE OCCIDENTAL LEV


Le Niveau scolaire occidental trs lev implique un systme dintelligences interconnectes.

1.1.2.6 LE DVELOPPEMENT DES ALLIANCES, DES RSEAUX DENTREPRISES


Le dveloppement des maillages dalliances de P.M.E., de Grandes Entreprises qui se signifient entre autre au travers du Co-branding, (image de marque commune ) ncessite de se centrer sur ses facteurs critiques de succs.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 60

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.2.7 LA 4ME RVOLUTION DU SAVOIR


Aprs lavnement de lcriture ( - 5000 ans : Mmoire du Savoir), lavnement de limprimerie ( - 500 ans : Diffusion du savoir ), lavnement de lordinateur ( - 50 ans : Extension du Cerveau ), voici lavnement du WEB ( - 5 ans ou linterconnexion des cerveaux entre eux ).

1.1.3 CONCLUSION
Montrez-moi votre systme dinformation, et je vous dirai qui vous tes . En effet, si la structure du contenu peut sexprimer relativement simplement dans les niveaux oprationnels de lorganisation ( structure des actes conomiques ); toute la varit des organisations et de leurs activits proviendra de cette partie environnementale ( Contrat, historique des vnements marquants ) et des richesses intellectuelles et humaines des dirigeants.

1.2 CONCLUSION DE LA PROBLEMATIQUE 1.2.1 SYSTME DCISIONNEL


La Problmatique de lentreprise relative au data warehouse et au data mining a t aborde en dfinissant : la structure du systme dcisionnel le paradigme de la dcision et de la prise de dcision le contenu informatif du systme dcisionnel Cest dans cet environnement que nous terminons en positionnant chacun des outils daide la dcision.

1.1.1 POSTIONNEMENT DES OUTILS DAIDE A LA DECISION


Nous proposons de situer les outils et les techniques daide la dcision que sont le data warehouse, lanalyse multidimensionnelle, le Data Mining, le Systme Expert, le tableau de Bord et lE.I.S. Nous rappelons la figure : structure de la Machine.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 61

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Ensemble des Thories, Mthodes, Modles des Reprsentations Mentales Ensemble des Mthodes et Modles reconnus par la machine

Machine
Sstmes Experts : Base de Connaissances

Dcideur

TABLEUR

( Dialogue )

SGBD

Mmoires / Processeurs

Figure 21 : structure de la machine

1.1.1.1 POSITIONNEMENT DU DATA WAREHOUSE


Le Data Warehouse, "lEntrept de donnes" remplit la fonction du SGBD. De mme, les bases de donnes de production font ce premier travail de slectionner les bons vnements , les bonnes donnes utiles au fonctionnement de lorganisation. Le chapitre suivant prsentera la distinction entre data Warehouse et Bases de production. A lchelle de notre reprsentation ci-dessus, les bases de productions et le Data Warehouse jouent ce rle de filtre; le Data Warehouse affine le filtrage.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 62

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Ensemble des Mthodes et Modles de SGBD

Machine

Dcideur

Data Warehouse
( Dialogue )

SGBD : Data Warehouse


Mmoires / Processeurs

Figure 22 : positionnement du Data Warehouse.

La taille du Data warehouse est globalement fonction de la taille des organisations. Sur lchelle des tailles des organisations, les amricains ont se sont servis de rapprochement avec les activits logistiques pour baptiser les collections de donnes dcisionnelles ; ainsi lentrept pour les grands volumes dinformations stockes, le Magasin pour des volumes plus faibles la taille de magasin ou de services dentreprise. Enfin pour les plus petites units, le vocabulaire na pas t fix, nous pourrions peut-tre choisir la Palette de donnes au sens de Palette de conditionnement en logistique. Faut-il affecter des volumes de donnes chacune des tailles dentrept de donnes ? Ce que lon peut dire : lunit de stockage est le Giga Octets. Cette unit est relative au stockage de donnes alaphanumriques. ( nous excluons limage, le son ,.. ) Plutt que de fixer des limites, nous donnons des ordres de grandeur au travers de 3 exemples : Mag Info gre la carte Cofinoga et dispose de 30 Tra-Octets en ligne soit 3.10^5 Go Une PME de fabrication de lingerie fminine destine aux grandes surfaces : CA 300 MF et dispose de 4 Go. Une base de documentation relative ces contrats dun consultant est de lordre de quelques Mo soit 0,01 Go environ.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 63

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Volume en Go 0,001 1

0,5 10^2 Data Mart

10^1 10^6 Data Warehouse Entrept Taille des Organisations

SGBD

"Palette de donnes"

Dpt

Uni Personnelle

PM(E,I) Organisations

Gdes Organisations

Tableau 7 : Positionnement du Data Warehouse

1.1.1.1 AUTRES OUTILS DCISIONNELS


Tous les autres outils daide la dcision exploitent des donnes du SGBD. Si lorganisation na pas de data warehouse, alors loutil daide la dcision quelle utilise , intgre une fonction SGBD avec les qualits du data warehouse qui seront exposes dans le chapitre suivant.

1.1.1.2 TABLEUR ET MODLES


Comme nous lavions dit, la base du SGBD est constitue de tables de bonnes donnes . Aussi, dans un transfert du SGBD vers le Tableur, cest dabord une opration miroir qui se passe : il y a transfert dune population dindividus. Ainsi un premier ensemble de modles qui pourront sappliquer sur le tableur sont les modles danalyse de population ( classification, valuation, ..... ). Le second ensemble de modles sont les modles base de fonctions mathmatiques ( financires, recherche oprationnelle, etc... ).

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 64

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.3 POSITIONNEMENT MULTIDIMENSIONNELLE

DE

LANALYSE

LAnalyse multidimensionnelle est un hyper tableur capable de projeter sur le plan de lcran ou de la feuille de papier un plan intressant choisi par lutilisateur parmi les plans de lhypercube. Ce tableur permet de nombreux niveaux dagrgation par dimension. Cet outil permet de quantifier. Un chapitre est consacr lanalyse multidimensionnelle et aux rgles OLAP. Ces rgles OLAP caractrisent le systme dcisionnel multidimensionnel et noncent des recommandations sur le modle de SGBD. Cest pourquoi nous avons fait rfrence dans la figure ci-dessous au SGBD.

Ensemble des Mthodes et Modles de SGBD Ensemble des Mthodes et Modles de TABLEURS Fonctions Mathmatiques, Financires, etc..
Analyse de Population

Machine Analyse Multidimensionnelle

Dcideur

TABLEUR SGBD : Data Warehouse


Mmoires / Processeurs

( Dialogue )

Figure 23 : positionnement de lAnalyse Multidimensionnelle

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 65

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.4 POSITIONNEMENT DU DATA MINING


Comme les outils prcdant, le data mining, Mine de Donnes exploiter va travailler partir de donnes extraites du Data Warehouse et les ranger dans un tableur. Le Data Mining travaillera de prfrence sur des tableurs de Populations et permettra dappliquer un ensemble de mthodes pour rpondre aux tches de Classification, Estimation, Prdiction, etc; tches et fonctionnalits qui seront dveloppes au chapitre Data Mining. Cet outil permet de rechercher les causes des rsultats donns par l analyse multidimensionnelle, de vrifier des hypothses, et de dcouvrir des corrlations entre les donnes. Le positionnement de cet outil daide la dcision se fait en 2 temps : 1. par rapport au tableur : il permet lemploi de toutes les mthodes et modles rserves aux analyses de population et lemploi de tous les autres modles mathmatiques. 2. par rapport au Systme Expert : Il peut alimenter un systme expert des connaissances mergentes. Selon les diteurs de logiciels, cet outil peut avoir un comportement superposable au fonctionnement dun systme Expert. Il permet de pratiquer le chanage avant, arrire, de tracer larbre des dcisions, etc....

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 66

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Ensemble des Mthodes et Modles de SGBD Ensemble des Mthodes et Modles de TABLEURS Fonctions Mathmatiques, Financires, etc..
Analyse de Population

Ensemble des Mthodes et Modles de Systmes Experts

Machine Analyse Multidimensionne lle

Dcideur DATA MINING

Systme Expert

TABLEUR SGBD : Data Warehouse


Mmoires / Processeurs

( Dialogue )

Figure 24 : positionnement du Data Mining

1.1.1.5 POSITIONNEMENT DU SYSTME EXPERT


Le Systme Expert travaille sur une base de connaissance. A ce titre, il peut se trouver enrichi des rsultats de lanalyse multidimensionnelle, du Data Mining et des tableaux de Bord.

1.1.1.6 POSITIONNEMENT DU TABLEAU DE BORD


Comme son nom lindique, cest un tableur. A ce titre, il peut se trouver en sortie du SGBD ( data warehouse ) ou en sortie dune autre outil daide la dcision. Sa finalit organisationnelle est de suivre un Indicateur .

1.1.1.7 POSITIONNEMENT INFORMATION SYSTEM)

DES

E.I.S

(EXECUTIVE

Destins au comit de Direction, ces EIS ou tableaux de Bord ont intgr au cours de leur volution des accs de nombreuses bases pour permettre des indicateurs de synthse, lanalyse multidimensionnelle et bien sr la fonction de tableaux de Bord.
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 67

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.2 CONCLUSION
pour conclure cette problmatique, nous terminons par quelques questions dun dirigeant : Suis-je dans le vrai ? Mes choix sont-ils bons ? Comment prendre du recul par rapport un quotidien qui mabsorbe totalement ? Que deviendra mon entreprise dans les 2 ans qui viennent ? Au del dune bonne exprience des modles, des analyses et des arsenaux dinformatique dcisionnelle, il y a toujours une prise de risque; en gnral, il faut prendre un risque par Jour !!! Nous avons positionn Data Warehouse et Data Mining dans le systme dcisionnel de lorganisation, les chapitres suivants vont prsenter plus en dtail leurs caractristiques, leurs apports respectifs dans laide la dcision, et leur mise en uvre.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 68

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1 LE DATA WAREHOUSE 1.1 PRSENTATION


Le concept de Data Warehouse a t formalis pour la premire fois en 1990. Lide de constituer une base de donnes oriente sujet, intgre, contenant des informations dates, non volatiles et exclusivement destines aux processus daide la dcision fut dans un premier temps accueillie avec une certaine perplexit. Beaucoup ny voyaient que l'habillage dun concept dj ancien : linfocentre. Mais lconomie actuelle en a dcid autrement. Les entreprises sont confrontes une concurrence de plus en plus forte, des clients de plus en plus exigeants, dans un contexte organisationnel de plus en plus complexe et mouvant. Pour faire face aux nouveaux enjeux conomiques, lentreprise doit anticiper. Lanticipation ne peut tre efficace quen sappuyant sur de linformation pertinente. Cette information est la porte de toute entreprise qui dispose dun capital de donnes gres par ses systmes oprationnels et qui peut en acqurir dautres auprs de fournisseurs externes. Mais actuellement, les donnes sont surabondantes, non organises dans une perspective dcisionnelle et parpilles dans de multiples systmes htrognes. Pourtant, les donnes reprsentent une mine dinformations. Il devient fondamental de rassembler et dhomogniser les donnes afin de permettre danalyser les indicateurs pertinents pour faciliter les prises de dcisions. Pour rpondre ces besoins, le nouveau rle de linformatique est de dfinir et dintgrer une architecture qui serve de fondation aux applications dcisionnelles : le Data Warehouse.

Le nouveau rle de linformatique est de dfinir et dintgrer une architecture qui serve de fondation aux applications dcisionnelles : le Data Warehouse.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 69

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.2 POURQUOI UN DATA WAREHOUSE 1.2.1 LA PROBLMATIQUE DES ENTREPRISES


Lentreprise construit un systme dcisionnel pour amliorer sa performance. Elle doit dcider et anticiper en fonction de linformation disponible et capitaliser sur ses expriences. Depuis plusieurs dizaines dannes, une importante masse dinformations est stocke sous forme informatique dans les entreprises. Les systmes dinformation sont destins garder la trace dvnements de manire fiable et intgre. Ils automatisent de plus en plus les processus oprationnels. Paralllement, les entreprises ralisent la valeur du capital dinformation dont elles disposent. Au del de ce que linformatique leur apporte en terme fonctionnel, elles prennent conscience de ce quelle pourrait apporter en terme de contenu informationnel. Considrer le systme dinformation sous cet angle en tant que levier pour accrotre leur comptitivit et leur ractivit nest pas nouveau. Par contre, tant donn lenvironnement concurrentiel actuel, cela devient une question de survie. Linformatique a un rle jouer, en permettant lentreprise de devenir plus entreprenante et davoir une meilleur connaissance de ses clients, de sa comptitivit ou de son environnement. Il est intressant de calculer les retours sur investissement rendus publics. Ils se calculent rarement en terme de baisse de cots, mais en terme de gains. Par exemple, ils permettent un meilleur suivi des ventes, une meilleure comprhension des habitudes dachats des clients, dune adaptation des produits une clientle mieux cible.

A ce titre, le Data Warehouse doit tre rapproch de tous les concepts visant tablir une synergie entre le systme dinformation et sa stratgie.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 70

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.2.2 LA RALIT DES SYSTMES DINFORMATIONS


A premire vue, les systmes oprationnels seraient des mines dor informationnelles. En fait, il nen est rien. Les donnes contenues dans ces systmes sont : Eparpilles : il existe souvent de multiples systmes, conus pour tre efficace pour les fonctions sur lesquelles ils sont spcialiss. Peu structures pour lanalyse : la plupart des systmes informatiques actuels ont pour objet de conserver en mmoire linformation, et sont structurs dans ce but. Focalises pour amliorer le quotidien : toutes les amliorations technologiques se sont focalises pour amliorer cette capacit en terme de volume, qualit, rapidit daccs. Il manque trs souvent la capacit nous donner les moyens de tirer parti de cette mmoire pour prendre des dcisions. Utilises pour des fonctions critiques : la majorit des systmes existants est conue dans le but unique de nous servir avec des temps de rponse corrects. Le Tableau 8 prsente les diffrences entre les donnes oprationnelles et dcisionnelles.

Donnes oprationnelles

Donnes dcisionnelles

Orientes application, dtailles, prcises Oriente activit (thme, sujet), au moment de laccs condenses, reprsentes des donnes historiques Mise jour interactive possible de la part Pas de mise jour interactive de la part des utilisateurs des utilisateurs Accdes de faon unitaires par une Utilises par lensemble des analystes, personne la fois gres par sous-ensemble Cohrence atomique Cohrence globale Haute disponibilit en continu Exigence diffrente, haute disponibilit ponctuelle Uniques (pas de redondance en thorie) Peuvent tre redondantes Structure statique, contenu variable Structure flexible Petite quantit de donnes utilises par un Grande quantit de donnes utilise par traitement les traitements Ralisation des oprations au jour le jour Cycle de vie diffrent Forte probabilit daccs Faible probabilit daccs Utilises de faon rptitive Utilise de faon alatoire
Tableau 8 : diffrences entre donnes du systme de production et donnes dcisionnelles

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 71

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Sil existe effectivement des informations importantes, il nen est pas moins ncessaire de construire une structure pour les hberger, les organiser et les restituer des fins danalyse. Cette structure est le Data Warehouse ou entrept de donnes . Ce nest pas une usine produire linformation , mais plutt un moyen de la mettre disposition des utilisateurs de manire efficace et organise. La mise en uvre du Data Warehouse est un processus complexe. Lobjectif atteindre est de recomposer les donnes disponibles pour en donner : une vision intgre et transversale aux diffrentes fonctions de lentreprise, une vision mtier au travers de diffrents axes danalyse, une vision agrge ou dtaille suivant le besoin des utilisateurs. Le Data Warehouse permet la mise en place dun outil dcisionnel sappuyant sur les informations pertinentes pour lentreprise, centres sur le mtier utilisateur.

1.1.1 LES OBJECTIFS


Toutes les donnes quelles proviennent du systme de production de lentreprise ou quelles soient achetes vont devoir tre organises, coordonnes, intgres et stockes, pour donner lutilisateur une vue intgre et oriente mtier.
Systmes externes Systmes htrognes de production

IBM

BULL

EXTRACTION PREPARATION CHARGEMENT

HP

STOCKAGE

ACCES, VISUALISATION

IDENTIFIER

POINT FOCAL

Tableau 9 : le data warehouse, point focal de l'informatique dcisionnelle


Source : EDS-Promthus

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 72

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Cette figure illustre lobjectif dun Data Warehouse, sorte de point focal stockant en un endroit unique toute linformation utile provenant des systmes de production et des sources externes. Avant dtre charge dans le Data Warehouse, linformation doit tre extraite, nettoye et prpare. Puis, elle est intgre et mise en forme de manire comprhensible par tre comprise par lutilisateur.

1.2 DFINITION
De nombreuses dfinitions ont t proposes, soit acadmiques, soit par des diteurs doutils, de bases de donnes ou par des constructeurs, cherchant orienter ces dfinitions dans un sens mettant en valeur leur produit. La dfinition la plus approprie est : Le Data Warehouse est une collection de donnes orientes sujet, intgres, non volatiles et historises, organises pour le support dun processus daide la dcision.

Orientes sujet

Le Data Warehouse est organis autour des sujets majeurs de lentreprise, contrairement aux donnes des systmes de production. Ceux-ci sont gnralement organiss par processus fonctionnels. Les donnes sont structures par thme. Lintrt de cette organisation est de disposer de lensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de lentreprise. Cette orientation sujet va galement permettre de dvelopper son systme dcisionnel via une approche par itrations successives, sujet aprs sujet. Lintgration dans une structure unique est indispensable car les informations communes plusieurs sujets ne doivent pas tre dupliques. Dans la pratique, une structure supplmentaire appele Data Mart (magasin de donnes) peut tre cre pour supporter lorientation sujet.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 73

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Donnes intgres

Un Data Warehouse est un projet dentreprise. Par exemple dans la distribution, le mme indicateur de chiffre daffaires intressera autant les forces de vente que le dpartement financier ou les acheteurs. Pour y parvenir, les donnes doivent tres intgres. Avant dtre intgres dans le Data Warehouse, les donnes doivent tres mises en forme et unifies afin davoir un tat cohrent. Par exemple, la consolidation de lensemble des informations concernant un client donn est ncessaire pour donner une vue homogne de ce client. Une donne doit avoir une description et un codage unique. Cette phase dintgration est trs complexe et reprsente 60 90 % de la charge totale dun projet.
Donnes historises

Dans un systme de production ; la donne est mise jour chaque nouvelle transaction. Dans un Data Warehouse, la donne ne doit jamais tre mise jour. Un rfrentiel temps doit tre associ la donne afin dtre capable didentifier une valeur particulire dans le temps.
Donnes non volatiles

La non volatilit des donnes est en quelque sorte une consquence de lhistorisation. Une mme requte effectue quelques mois dintervalle en prcisant la date de rfrence de linformation recherche donnera le mme rsultat. Le Tableau 10 ci-aprs prsente les principales diffrences entre le systme de production et le data warehouse :

Critre Niveau de dtail des informations utilisateurs Utilisateurs


Donnes figes Historique Oprations sur les donnes

Systme de production Trs dtaill


Une ou quelques fonctions de lentreprise Non volution en temps rel Non Ajout/mise jour/ consultation

Data Warehouse Synthtique, parfois dtaill


Plusieurs fonctions de lentreprise Oui archivage Oui Consultation uniquement

Tableau 10 : diffrences entre systme de production et data warehouse

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 74

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 LES CONCEPTS DE BASE 1.1.1 LA STRUCTURE


Un Data Warehouse se structure en quatre classes de donnes, organises selon un axe historique et un axe synthtique.

D onnes fortem ent agrges

D onnes agrges

N iveau de synthse

Mta Donnes

D onnes dtailles

D onnes dtailles historises

N iveau d'historique

Tableau 11 : structure d'un data warehouse


Source : EDS-Promthus

Les donnes dtailles

Elles refltent les vnements les plus rcents. Les intgrations rgulires des donnes issues des systmes de production vont habituellement tre ralises ce niveau. Les volumes traiter sont plus importants que ceux grs en transactionnel. Attention : le niveau de dtail gr dans le Data Warehouse nest pas forcment identique au niveau de dtail gr dans les systmes oprationnels. La donne insre dans le Data Warehouse peut tre dj une agrgation ou une simplification dinformations tires du systme de production. Exemple : ltude du panier de la mnagre ncessite de stocker le niveau de finesse du ticket de caisse.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 75

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Les donnes agrges

Elles correspondent des lments danalyse reprsentatifs des besoins utilisateurs. Elles constituent dj un rsultat danalyse et une synthse de linformation contenue dans le systme dcisionnel, et doivent tre facilement accessibles et comprhensibles. La facilit daccs est apporte par des structures multidimensionnelles qui permettent aux utilisateurs de naviguer dans les donnes suivant une logique intuitive, avec des performances optimales. (Certains SGBD du march sont conus pour faciliter la mise en place des agrgations et la navigation au sein de celles-ci). La dfinition complte de linformation doit tre mise la disposition de lutilisateur pour une bonne comprhension. Dans le cas dun agrgat, linformation est compose du contenu prsent (moyenne des ventes, ) et de lunit (par mois, par produit,).
Les mta-donnes

Elles regroupent lensemble des informations concernant le Data Warehouse et les processus associs. Elles constituent une vritable aide en ligne permettant de connatre linformation contenue dans le Data Warehouse. Elles sont idalement intgres dans un rfrentiel. Les principales informations sont destines : A lutilisateur (smantique, localisation). Aux quipes responsables des processus de transformation des donnes du systme de production vers le Data Warehouse (localisation dans les systmes de production, description des rgles, processus de transformation). Aux quipes responsables des processus de cration des donnes agrges partie des donnes dtailles. Aux quipes dadministration de la base de donnes ( structure de la base implmentant le Data Warehouse). Aux quipes de production (procdures de changement, historique de mise jour,)

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 76

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Les donnes historises

Un des objectifs du Data Warehouse est de conserver en ligne les donnes historises. Chaque nouvelle insertion de donnes provenant du systme de production ne dtruit pas les anciennes valeurs, mais cree un nouvelle occurrence de la donne. Le support de stockage dpend du volume des donnes, de la frquence daccs, du type daccs. Les supports les plus couramment utiliss sont les disques, les disques optiques numrique, les cassettes. La logique daccs aux donnes la plus utilise est la suivante : les utilisateurs commencent attaquer les donnes par le niveau le plus agrg, puis approfondissent leur recherche vers les donnes les plus dtailles (Drill Drown). Laccs des donnes se fait galement directement par les donnes dtailles et historises, ce qui conduit des brassages de donnes lourds, demandant des machines trs puissantes. Le Data Warehouse est une russite dans une entreprise lorsque le nombre dutilisateur accdant aux donnes de dtail augmente.

1.1.1 LES ARCHITECTURES


Pour implmenter un Data Warehouse, trois types darchitectures sont possibles : Larchitecture relle, Larchitecture virtuelle, Larchitecture remote.

1.1.1.1 LARCHITECTURE RELLE


Elle est gnralement retenue pour les systmes dcisionnels. Le stockage des donnes est ralis dans un SGBD spar du systme de production. Le SGBD est aliment par des extractions priodiques. Avant le chargement, les donnes subissent dimportants processus dintgration, de nettoyage, de transformation. Lavantage est de disposer de donnes prpares pour les besoins de la dcision et rpondant aux objectifs du Data Warehouse. Les inconvnients sont le cot de stockage supplmentaire et le manque daccs en temps rel.

1.1.1.2 LARCHITECTURE VIRTUELLE


C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 77

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Cette architecture nest pratiquement pas utilise pour le Data Warehouse. Les donnes rsident dans le systme de production. Elles sont rendues visibles par des produits middleware ou par des passerelles. Il en rsulte deux avantages : pas de cot de stockage supplmentaire et laccs se fait en temps rel. Linconvnient est que les donnes ne sont pas prpares.

1.1.1.3 LARCHITECTURE REMOTE


Cest une combinaison de larchitecture relle et de larchitecture virtuelle. Elle est rarement utilise. Lobjectif est dimplmenter physiquement les niveaux agrgs afin den faciliter laccs et de garder le niveau de dtail dans le systme de production en y donnant laccs par le biais de middleware ou de passerelle.

1.1.1.4 SYNTHSE
Les diffrents lments d'apprciation sont repris dans le tableau rcapitulatif ci-dessous :

Utilisation Stockage

Avantages

Architecture relle Retenue pour les systmes dcisionnels SGBD spar du systme de production, aliment par des extractions priodiques Donnes prpares pour les besoins de la dcision
Cot de stockage supplmentaire, manque daccs temps rel

Architecture virtuelle Rarement utilise

Architecture remote Rarement utilise

Donnes rsidant dans Combinaison des le systme de architectures relle et production virtuelle Pas de cot de stockage supplmentaire, accs en temps rel Donnes non prpares

Inconvnients

Tableau 12 : tableau de synthse des architectures de data warehouse

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 78

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.2 INFOCENTRE ET DATA WAREHOUSE


Certaines caractristiques sont identiques. Mais il existe de nombreux lments permettant de diffrencier les deux notions. Linfocentre est une collection de donnes orientes sujet, intgres, volatiles, actuelles, organises pour le support dun processus de dcision ponctuel. Le Data Warehouse est une collection de donnes orientes sujet, intgres, non volatiles, historises, organises pour le support dun processus daide la dcision. Dans un infocentre, chaque nouvelle valeur remplace lancienne valeur. Il est donc impossible de retrouver une valeur calcule dans une session pralable aux dernires alimentations. La non volatilit est une caractristique essentielle du Data Warehouse. De mme, lhistorisation des donnes dans un infocentre, il ny a pas de gestion dhistorique des valeurs. Linfocentre sert prendre des dcisions oprationnelles bases sur des valeurs courantes. Au niveau dun Data Warehouse, lutilisateur travaille sur les historiques pour des prises de dcisions long terme, des positionnements stratgiques et pour analyser des tendances. Dans un infocentre, lintgration des donnes est plus ou moins pousse. Le processus dalimentation est simple. Le finalit dun infocentre est de permettre aux utilisateurs daccder leur donnes dans leurs propres termes.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 79

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Infocentre Collection de donnes Orientes sujet Intgres Volatiles Actuelles Organises pour le support dun processus de dcision ponctuelle Outil

Data Warehouse Collection de donnes Orientes sujet Intgres Non volatiles Historises Organises pour le support dun processus daide la dcision Architecture

Tableau 13 : tableau de comparaison entre infocentre et Data Warehouse

La mise en vidence des diffrences est exprime par les questions suivantes : Quels infocentres sont motivs par des objectifs business et sont au service de la stratgie de lentreprise ? Quels infocentres permettent de connatre la concurrence, danticiper les besoins ? investissement ? Quelles entreprises mesurent le retour sur

Linfocentre est un outil alors que le Data Warehouse est une architecture.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 80

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1 LA CONSTRUCTION DU DATA WAREHOUSE


Lobjectif atteindre est de recomposer les donnes disponibles pour en obtenir une vision intgre et transversale aux diffrentes fonctions de lentreprise, une vision mtier au travers des diffrents axes danalyse et une vision agrge ou dtaille, adapte son besoin. La transformation des donnes en connaissance est un processus complexe.

Application N Application 3 Application 2 Application 1

ACQUISITION

STOCKAGE IDENTIFIER

ACCES

Infrastructure oprationnelle Infrastructure technique

Tableau 14 : cadre gnral dun Data Warehouse


Source : EDS-Promthus

Le cadre gnral dun Data Warehouse comporte trois domaines principaux : les applications, (acquisition, stockage, accs), les composants fonctionnels du Data Warehouse les infrastructures (technique et oprationnelle).

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 81

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 LES APPLICATIONS


Un Data Warehouse se fait en plusieurs itrations. Chaque sujet trait est dcompos en un ensemble dinitiatives (projet dcisionnel entrant en jeu dans la construction dun Data Warehouse dans une dmarche itrative). Les applications doivent rester matrisables et fournir des rsultats tangibles dans un dlai de moins de six mois, qui correspond au dlai moyen de ralisation dapplications. Le primtre de chaque application doit tre clairement dfini (acteurs concerns, frquences et priodicit des analyses, ...).

1.2 LES COMPOSANTS FONCTIONNELS


Trois composants caractrisent un Data Warehouse : lacquisition, le stockage, laccs.

1.1.1 LACQUISITION
Elle se compose de trois phases : lextraction, la prparation et le chargement. systme de production. utilisables : donnes, Lextraction : collecter les donnes utiles dans le La prparation : plusieurs technologies sont les passerelles, fournies par les diteurs de base de

les utilitaires de rplication, utilisables si les systmes de production et dcisionnel sont homognes, les outils spcifiques dextraction (prix lev). La prparation inclus la mise en correspondance des formats de donnes, le nettoyage, la transformation et lagrgation. Le chargement : il constitue la dernire phase dalimentation. Il est indispensable de matriser la structure du SGBD (tables et index) pour optimiser au mieux le processus.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 82

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1 LE STOCKAGE
Le composant de base est le SGBD. Il doit tre spcifiquement adapt aux caractristiques de laccs dcisionnel. Du fait de limportance de lhistorique, la structuration physique des donnes est galement trs importante. Le SGBD apporte la transparence lvolution matrielle, lindpendance, que ce soit au niveau des types et du nombre de processeurs, des disques ou des mmoires, ainsi que la transparence lvolution des systmes dexploitation.

1.1.2 LACCS
Dfinir une architecture globale servant de support aux accs dcisionnels impose des choix technologiques non structurants. Il faudra mettre en place une infrastructure commune toutes les applications dcisionnelles, tout en laissant aux utilisateurs lopportunit dutiliser les solutions daccs les mieux adaptes leur problmatique. (Les outils du march sont les requteurs, les outils danalyse multidimensionnelle, les EIS, le Data Mining, Les SIG).
Piloter EIS Agent intgr aux outils Analyser, Naviguer Les bases OLAP Les outils ROLAP

Interroger Requtes ad-hoc (QUERY)

Analyse "simple" (oprationnels)


POINTS DE VUES
Entrept de donnes

"Data mining" (quipe R&D)


Visualisation avance Outils de visualisation avancs Systme d'information gographique Simuler, prdire, extrapoler Statistiques Rseaux de neurones... Segmenter, corrler Arbres de dcision, Dcouverte de rgles, Statistiques...

Tableau 15 : data warehouse - points de vue pour les utilisateurs


Source : EDS-Promthus

1.2 LES INFRASTRUCTURES


C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 83

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Il y a deux niveaux dinfrastructures : linfrastructure technique : lensemble des composants matriels et logiciels ( associer aux composants fonctionnels : alimentation, stockage et accs). linfrastructure oprationnelle : lensemble des procdures et des services pour administrer les donnes, grer les utilisateurs et exploiter le systme.

Pour la construction dun Data Warehouse, de manire gnrale, il faut : 1. Bien connatre les mtiers utilisateurs Impliquer les utilisateurs dans les projets, Faire participer lutilisateur la dfinition et lvolution des mta-donnes, Former lutilisateur pour laider comprendre la logique du Data Warehouse, Avoir un chef de projet orient utilisateur. 1. Assurer une vritable conduite de projet Le chef de projet fdre lensemble des besoins. Il organise et planifie les diffrentes phases de dploiement en fonction de la culture de lentreprise. (La principale source dchec serait humaine et non technique). Seules les entreprises exprimentes peuvent faire lconomie dun prototype. 2. Commencer petit et voir grand Il faut commencer petit, quil sagisse dun prototype ou dun Data Mart. 3. Grer lvolutivit alimentation et administration. Ce sont les points critiques du processus de construction du Data Warehouse.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 84

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1 LA CONCEPTION DU DATA WAREHOUSE

Quatre caractristiques ont des effets dterminants sur la dmarche de conception dun Data Warehouse : Les volutions technologiques : un systme dinformation peut se construire par intgration dun certain nombre de composants, chacun pouvant tre choisi par rapport son contexte dutilisation. Lentreprise dfini son architecture en fonction de ses besoins. La stratgie de lentreprise : le Data Warehouse est trs proche de la stratgie de lentreprise. Lobjectif du Data Warehouse se dfinit en terme mtier. Il faut donc impliquer les utilisateurs ayant le plus de connaissances dans leur entreprise ou dans leur mtier. Lamlioration continue : un Data Warehouse doit voluer en fonction des demandes utilisateurs ou des nouveaux objectifs de lentreprise. La maturit de lentreprise : entreprises ont dj un systme dcisionnel. Dautres nont aucun acquis. certaines

Dans tous les cas, il nexiste pas de cadre fig pour la conception dun Data Warehouse. Chaque entreprise doit adapter le projet son contexte, en ne perdant pas les objectifs de vue. Cet objectif est de mettre en place un systme dinformation cohrent et intgr, le systme devant tre dcomposer en applications, chacune sintgrant dans le Data Warehouse. Il est possible de proposer trois phases pour la conception : Dfinir le pourquoi du Data Warehouse et les objectifs atteindre (impliquer les utilisateurs). Dfinir organisationnelle du Data Warehouse. linfrastructure technique et

Mettre en uvre les applications.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 85

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 DCOUVRIR ET DFINIR LES INITIATIVES

Cette phase consiste en ltude stratgique du Data Warehouse et la dfinition du plan daction.

1.1.1 LTUDE STRATGIQUE


Pendant ltude stratgique, il faut : lentreprise. Informer et motiver les personnes concernes dans

Impliquer les managers, les quipes oprationnelles, les quipes informatiques : phase didentification et de comprhension des enjeux mtier/entreprise. Identifier les projets Data Warehouse. Ltude stratgique permet didentifier la stratgie de lentreprise, son organisation, les processus quelle met en uvre, la culture de lentreprise. Le but est de dterminer les domaines pour lesquels la mise en place dun Data Warehouse peut tre le plus bnfique. A la fin de cette tude, des sous-projets ou initiatives vont tre dgags. Les acteurs consults doivent tre des spcialistes mtiers, convaincus de la ncessit et de limportance du Data Warehouse.

1.1.1 LE PLAN DACTION


Pour mettre en place le plan daction, il faut : Vrifier la faisabilit de chaque projet (sassurer de lexistence et de la qualit des donnes, des possibilits techniques, des possibilits organisationnelles). Estimer les ressources pour chaque projet, les besoins. Squencer et planifier les projets. Il est possible de commencer petit et voir grand : limiter lobjectif un domaine prcis (Data Mart) ou faire un prototype. Ceci permet davoir un retour sur investissement rapide et de prouver le bien fonder du concept. Il faut dterminer la faisabilit de chaque projet envisag et dterminer les moyens ncessaires (techniques, humains, organisationnels) leur ralisation. Leur cot et leur dure de mise en uvre sera estim, ainsi que les bnfices attendus et leur terme.
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 86

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Les projets envisags (initiatives) doivent avoir une mise en uvre courte ( environ six mois) et doivent tre bien dlimits. Il faut aussi valuer le capital informatique, cest--dire analyser les systmes de production sur lesquels le Date Warehouse doit sappuyer, ce qui ne peut pas tre fait sans voir lvaluation des initiatives. Plusieurs dcisions sont prendre en ce qui concerne les donnes dont a besoin lentreprise : Si les donnes existent dans les systmes de production, les initiatives sont envisageables. Si les donnes nexistent pas dans lentreprise, ni lextrieur (achat de fichiers), il faut revoir ou abandonner les initiatives. Si les donnes nexistent pas dans lentreprise, ni lextrieur, mais sont stratgiques pour lentreprise, il faut reporter. Si les donnes existent lextrieur, il faut prendre la dcision dachat. Les estimations ne doivent pas tre dtailles et doivent concerner le plus grand nombre possible dinitiatives. Ce sera sur cette base que la politique technologique du Data Warehouse sera dtermine.

1.1 LINFRASTRUCTURE
Il sagit de dterminer linfrastructure technologique et organisationnelle ncessaire la mise en place du Data Warehouse et la conduite du changement.

1.1.1 LINFRASTRUCTURE TECHNIQUE


Des choix technologiques en phase avec la politique de lentreprise doivent tre faits plusieurs niveaux : Les fournisseurs : faut-il prendre un seul fournisseur (ce qui facilite la politique dintgration et en rduit les cots de mise en uvre) ou assembler les meilleurs offres du march (ce qui apporte une flexibilit, une adaptation chaque projet, mais cote beaucoup en intgration). Les outils : faut-il construire, acheter ou faire avec lexistant. Comment sera utilis le Data Warehouse, par qui, comment sera structur lorganisation qui lexploitera. Faut-il une architecture centralis (Data Warehouse), distribue (plusieurs Data Mart), ou une architecture rplique (un Data Warehouse et plusieurs Data Mart).
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 87

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

La structure de stockage, sera-t-elle relationnelle, multidimensionnelle, hybride (Data Warehouse en relationnel, Data Mart en multidimensionnel). Choisir le matriel : selon les volumes envisags, les utilisateurs concerns, larchitecture vise, la flexibilit attendue. Organiser ladministration des systmes et la gestion de la scurit. Il faut vrifier que les solutions choisies fonctionnent entre elles. (Ne pas se fier aux plaquettes commerciales en ce qui concerne la portabilit).

1.1.1 LINFRASTRUCTURE ORGANISATIONNELLE


Paralllement aux choix technologiques, il faut : Dterminer la logistique et lorganisation ncessaires la concrtisation des initiatives. Rpartir les tches entre les quipes de dveloppement et les quipes dexploitation : dterminer lalimentation du Data Warehouse, ladministration. Dterminer les flux dinformation entre le Data Warehouse et les utilisateurs.

1.1 LA FORMATION
Selon lexprience de lentreprise en matire de dcisionnel et des technologies utilises, un plan de formation sera ncessaire. Il sera impratif que les membres participants au projet soient favorables au changement.

1.2 LA MISE EN UVRE DES APPLICATIONS


La mise en uvre est ralise pour chaque initiative. La dmarche propose est une dmarche en cinq tapes : la spcification, la conception, la mise en uvre et lintgration, le dploiement et la mise en

accompagnements,
C:\CNAM\Data.doc

place

des

Valeur C : Ingnierie des systmes dcisionnels

Page 88

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining les mesures.

Version 1.1
Le 15 Juin 1998

Ces tapes correspondent celles de mise en place dun projet informatique. Pendant ltape de spcification, les diffrentes tapes des initiatives sont dfinies et planifies de manire plus dtailles. Il est recommand de faire attention aux cots cachs que peuvent entraner les technologies informatiques. Ltape de mesure permet de faire le bilan de la ralisation et de capitaliser les russites et checs rencontrs pendant le dveloppement de lapplication. Deux visions du Data Warehouse cohabitent dans lapproche prcdente : Une vision entreprise : chaque projet dfini dans la premire phase (initiative) est construit de manire indpendante et rpond un objectif mtier dlimit, tout en sintgrant dans le Data Warehouse. Une vision projet : les projets identifis deviennent des applications. Donc le processus est itratif. Il nexiste pas de dmarche complte et universelle pour la mise en uvre dun data Warehouse. Toute approche doit tre adapte lentreprise.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 89

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1 LADMINISTRATION DES DONNES


Comme tout autre systme informatique, un Data Warehouse sadministre. Ds la phase de conception de larchitecture, il faut penser ladministration des donnes : cest une des fonctions les plus importantes du Data Warehouse. Cette fonction est dautant plus importante que le Data Warehouse volue au fur et mesure de son utilisation. La mise en place dun Data Warehouse doit saccompagner de celle dun rfrentiel de donnes, permettant de dcrire, stocker et diffuser les mta-donnes associes. Cette mise en place passe par lorganisation dune fonction dadministration des donnes plusieurs niveaux, par la dfinition de normes et de procdure dadministration des rfrentiels.

1.1 LES MTADONNES

Elles reprsentent toutes les informations ncessaires laccs, la comprhension et lexploitation des donnes du Data Warehouse.

Type dinformation Smantique Origine Rgle de calcul Rgle dagrgation Stockage, format Utilisation

Signification Que signifie la donne Do vient-elle, o, par qui est-elle cre ou mise jour Rgle de calcul, de gestion Primtre de consolidation O, comment est-elle stocke, sous quel format Programmes informatiques qui lutilisent, Machines : comment et sur lesquelles, disposition, Temps de conservation
Tableau 16 : dfinition dune mta-donne

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 90

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

La donne est forcment lie dautres objets du systme dinformation. Il est donc ncessaire de reprsenter, dcrire et stocker les interactions avec dautres donnes.

Types de lien Domaines, sujets Structure organisationnelle, structure gographique Concepts gnriques Applications, programmes Tables, colonnes Sites, machines

Signification Chaque donne va tre indexe par sujet ou domaine Une donne peut avoir des sens lgrement diffrents selon la personne qui la manipule Exemple : notion de produit se dclinant en lignes de produits, services,... Donne manipule par une ou plusieurs applications ou programmes Donne situe dans une ou plusieurs colonnes, tables et bases de donnes Localisation physique de la donne
Tableau 17 : interactions des donnes

Gnralement, pour reprsenter les mta-donnes, on utilise un symbolisme courant en informatique. Par exemple les modles de donnes MERISE : modle conceptuel de donnes et modle logique de donnes.

1.2 LE RFRENTIEL DU DATA WAREHOUSE


Le rfrentiel du Data Warehouse est lensemble des outils ncessaires la mise en uvre de la fonction dadministration de donnes. Les objectifs de ladministration de donnes du Data Warehouse sont : Assurer la cohsion du systme : Respecter la cohrence et la fiabilit des informations. Unifier la reprsentation des donnes. Respecter la cohrence des concepts. Vrifier la non redondance des informations.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 91

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Simplifier techniquement les systmes dinformation : Diminuer le nombre de fichiers. Unifier la saisie et le stockage des informations. Organiser les mises jour et la diffusion des informations. Un rfrentiel de donnes pour le Data Warehouse est un rfrentiel de donnes dans lequel sont dcrits lorganisation et la localisation des donnes, ainsi que les rgles de consolidation des donnes agrges et historises. Il est conu de manire collecter lensemble des modles de donnes ncessaires la construction et lexploitation du Data Warehouse. La construction du rfrentiel est un projet quil est ncessaire de prvoir en parallle celui du data Warehouse.

1.1 LA MISE EN UVRE


Il nexiste pas une seule manire de le faire. La problmatique doit tre considre sous deux aspects : organisationnel et technique. Acheter une solution cl en main est trs risque : les fonctionnalits de loutil conditionnent alors lorganisation du projet. Quelque soit loutil choisi, il faut pouvoir le faire voluer afin de sadapter de nouveaux besoins.

1.1.1 SCURIT
Le Data Warehouse a pour vocation de laisser lutilisateur une totale autonomie en ce qui concerne la recherche et lanalyse des donnes. Cette libert doit cependant tre souvent restreinte, notamment pour des raisons de scurit. Loutil doit donc permettre dadapter lenvironnement de travail lutilisateur qui sy connecte selon sa fonction et donc ses droits. Afin de mener bien cette politique de scurit, les notions dutilisateur et de groupe dutilisateur sont indispensables. Cette notion doit nanmoins tre dissocie de la notion dutilisateur du serveur de donnes. Il est en effet prfrable que lutilisateur se connecte directement loutil daide la dcision et accde de manire transparente au serveur de donnes sans en connatre le nom dutilisateur et le mot de passe. Il ny a ainsi pas de risque que lutilisateur se connecte au serveur par dautres biais. Ce risque est dautant plus important que lutilisateur trouve le plus souvent sur son poste de travail les moyens de se connecter un serveur de donnes. Il peut par exemple se connecter partir dExcel un serveur de donnes, via le driver ODBC. Plus les autorisations pourront tre dfinies un niveau fin , plus lenvironnement de travail pourra tre facilement adapt chacun des profils dutilisateur. Au del du catalogue dans sa globalit, loutil doit donc permettre de dfinir des droits sur chacun de ses lments en restreignant le nombre de tables ou de colonnes disponibles ou, par un critre de recherche, le nombre de lignes accessibles.
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 92

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Au del des droits concernant laccs aux donnes, la possibilit daffecter des privilges sur les requtes et rapports prdfinis est un facteur essentiel dans la dfinition dune stratgie de diffusion.

1.1.2 GESTION DES PERFORMANCES


La possibilit de limiter les accs aux ressources permet ladministrateur de mieux contrler les requtes mises par lutilisateur. Ce besoin est surtout essentiel pour les outils dinfocentre, qui peuvent offrir lutilisateur un espace de libert et dautonomie important. En effet contrairement aux outils bass sur un modle multidimensionnel, les utilisateurs accdent aux informations non selon un schma prdfini mais selon leurs besoins. Ils gnrent ainsi les requtes quils veulent et naccdent pas toujours un serveur optimis en consquence. Ce contrle des ressources peut prendre plusieurs formes : limitation du temps dexcution ; cette fonctionnalit ne sera nanmoins pas gr de manire optimale par loutil qui, moins davoir dj effectu une requte identique, na pas moyen de connatre priori le temps quelle prendra. Certains serveurs (Ingres et Oracle notamment) offrent cette fonctionnalit. Lidal est donc davoir un outil capable de demander au serveur le temps que va mettre une requte et dagir ensuite en consquence (par exemple, refuser la demande selon lutilisateur). Sinon, loutil peut permettre labandon de requtes trop longues. limitation du nombre de lignes rcupres ; loutil peut soit permettre de ramener les lignes par paquets, soit ne rapatrier quun certain nombre denregistrements, soit abandonner une requte ramenant un volume trop important de donnes. Loutil, en cas de dpassement des limites, peut soit prvenir lutilisateur et lui demander si il souhaite continuer, soit abandonner la demande. Le contrle du corps des requtes permet de limiter considrablement le nombre de demandes coteuses. Ce contrle peut sexercer sur diffrents paramtres : le nombre de tables interroges ; les jointures, ladministrateur peut notamment interdire tout produit cartsien. Il peut de plus tre intressant dimposer dutiliser que les colonnes indexes ou dinterdire un nombre trop important de thta-jointures, ... Ce besoin de contrler les performances est d lautonomie laisse aux utilisateurs par les outils dinfocentre. En effet, ladministrateur na que trs peu de matrise sur ce que vont faire les utilisateurs et le modle de donnes ne peut tre ds le dpart optimis pour un type dutilisation particulier. Des fonctions daudit permettent de remdier cela en donnant lutilisateur une vision des demandes les plus et les moins frquemment utilises. Il peut alors paramtrer et optimiser son environnement (serveur, client) en consquence. Loutil doit donc offrir la possibilit de journaliser le texte des requtes, leur dure dexcution, le nom de lutilisateur les ayant envoyes.
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 93

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1 BATCHS
La possibilit deffectuer des requtes en batch est une fonctionnalit essentielle dans un contexte de Data Warehouse o une requte peut avoir besoin de manipuler un volume important de donnes. Un scheduler, planificateur, peut alors permettre denvoyer une requte un instant donn ou intervalles rguliers. Imposer des plages horaires aux utilisateurs pour ces requtes coteuses est alors galement une ncessit. Ladministrateur peut grer les priorits daprs les requtes ou les utilisateurs. Le scheduler doit permettre non seulement denvoyer une requte mais une srie de requtes. Un mcanisme dalertes peut alors avertir lutilisateur si des valeurs sont exceptionnelles. On passe alors dune logique pull (lutilisateur part la recherche de linformation pertinente) une logique push (linformation vient vers lutilisateur quand elle est juge pertinente). Outre les requtes dfinies avec loutil daide la dcision, le scheduler peut galement permettre de lancer des requtes dadministration un instant donn, pendant des plages horaires peu occupes.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 94

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 LE DATA MART
Avec un Data Warehouse, il y a des risques dchec. Rien ninvite lutilisateur se servir dun Data Warehouse. Le succs dun Data Warehouse dpend donc uniquement de son effective utilisation. Un des gros risques de la construction est de se cristalliser autour de la problmatique informatique et de se dtourner de lutilisateur. Le Data Mart minimise la complexit informatique. Il est donc plus facile de se concentrer sur les besoins utilisateurs.

2.1 DFINITION
Le Data Mart est une base de donnes moins coteuse que le Data Warehouse, et plus lgre puisque destine quelques utilisateurs dun dpartement. Il sduit plus que le Data Warehouse les candidats au dcisionnel. Cest une petite structure trs cible et pilote par les besoins utilisateurs. Il a la mme vocation que le Data Warehouse (fournir une architecture dcisionnelle), mais vise une problmatique prcise avec un nombre dutilisateurs plus restreint. En gnral, cest une petite base de donnes (SQL ou multidimensionnelle) avec quelques outils, et alimente par un nombre assez restreint de sources de donnes. Son cot ne dpasse pas deux trois millions de francs. Mais pour russir, il y a quelques prcautions prendre, gage de son volutivit vers le Data Warehouse. Data Warehouse Toute lentreprise Eleve SQL type serveur A lchelle de lentreprise Multi sujets, neutre Multiples Base de donnes Centaine de GO et plus 9 18 mois pour les 3 tapes > 6 millions de francs Unix Data Mart Dpartement Faible ou moyen SQL milieu de gamme, bases multidimensionnelles Dpartement Quelques sujets, spcifique Quelques unes Plusieurs bases distribues Une 2 dizaines de GO 6 12 mois (installation en plusieurs tapes) 500.000 3 millions de francs NT, petit serveur Unix

Cible utilisateur Implication du service informatique Base de donnes dentreprise Modles de donnes Champ applicatif Sources de donnes Stockage Taille Temps de mise en place Cot Matriel

Tableau 18 : finalits des data marts et data warehouse

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 95

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.2 MISE EN PLACE


Construire un ou plusieurs Data Marts dpartementaux au lieu dun Data Warehouse central permet de valider rapidement le concept dinformatique dcisionnelle. Mais construire des Data Marts nest pas sans risques : En effet, dans les entreprises, des Data Marts isols peuvent prolifrer. Ces entreprises risquent de retomber dans le pige dune architecture compose de multiples systmes dcisionnels incohrents, contenant des informations redondantes. Cela cote plus cher et cest plus complexe grer quun Data Warehouse centralis. Les entreprises amricaines, plus en avance que les entreprises europennes, en ont fait les frais. Les Data Marts rsolvent les problmes de performance des gros Data Warehouse. Mais ils font rgresser vers le vieux problme des lots isols. Les entreprises vont devoir affronter des problmes techniques complexes et coteux pour remettre en cohrence les ensembles. Fdrer des Data Marts ou les faire voluer vers une structure centralise nest pas facile. On peut se poser la question sil est prfrable de btir un gros et unique Data Warehouse ou bien de concevoir un rservoir plus modeste, nourri par les donnes dun seul dpartement. Il est intressant de commencer par un Data Mart, condition de respecter certaines rgles : Impliquer les utilisateurs. Ne pas construire de multiples Data Marts isols. Bannir les redondances.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 96

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Les Data Marts sont petits Les Data Marts sont moins complexes et plus facile dployer que les Data Warehouse Les Data Marts peuvent voluer facilement vers un Data Warehouse Les diffrents Data Marts indpendants peuvent tre dynamiquement coupler pour se mtamorphoser en Data Warehouse Les Data Marts ne se rsument qu une seule information mtier (exemple : ventes) Les Data Marts sont plus flexibles que les Data Warehouse Les Data Marts sont un nouveau concept.
Tableau 19 : les sept mythes du data mart (source : Gartner Groupe)

Donc le Data Mart peut prparer au Data Warehouse. Mais il faut penser grand, avenir, et adopter des technologies capables dvoluer.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 97

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1 LE CONCEPT OLAP 1.1 PRSENTATION


Les outils OLAP (On Line Analytical Process) reposent sur une base de donnes multidimensionnelle, destine exploiter rapidement les dimensions d'une population de donnes. La plupart des solutions OLAP reposent sur un mme principe : restructurer et stocker dans un format multidimensionnel les donnes issues de fichiers plats ou de bases relationnelles. Ce format multidimensionnel, connu galement sous le nom d'hypercube, organise les donnes le long de dimensions. Ainsi, les utilisateurs analysent les donnes suivant les axes propres leur mtier. Ce type d'analyse multidimensionnelle ncessite la fois l'accs un grand volume de donnes et des moyens adapts pour les analyser selon diffrents points de vue. Ceci inclut la capacit discerner des relations nouvelles ou non prvues entre les variables, la capacit identifier les paramtres ncessaires manier un volume important de donnes pour crer un nombre illimit de dimensions et pour spcifier des expressions et conditions inter dimensions. Ces dimensions reprsentent les chemins de consolidation. OLAP concerne de ce fait au moins autant le monde des serveurs, voire des structures de stockage, que celui des outils.

1.2 LES 12 RGLES OLAP


Afin de formaliser le concept OLAP, fin 1993, la demande de Arbor Software, Edgar F. Codd publie un article intitul "Providing OLAP to User Analysts" aux Etats Unis, dans lequel il dfinit 12 rgles que tout systme de pilotage multidimensionnel devrait respecter.. "Ce quil y a dagrable avec ces outils OLAP", explique Eric Klusman, de Cantor Fitzgerald LP, "cest que je suis en mesure de distribuer les donnes aux utilisateurs sans les obliger apprendre des complexes formules de programmation, dinterrogation ou mme ce quils aient programmer leurs tableurs". Dune faon gnrale, tous affirment que lon peut interfacer de nombreux outils dutilisateurs avec des bases de donnes multidimensionnelles sans quil soit ncessaire de consentir de lourds efforts de formation ou des interventions importantes du service informatique.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 98

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Vue multidimensionnelle

L'utilisateur a l'habitude de raisonner en vue multidimensionnelle comme par exemple lorsqu'il souhaite analyser les ventes par produit mais aussi par rgion ou par priode. Ces modles permettent des manipulations simples : rotation, pivot ou vues par tranche, analyse de type permutations d'axes (slice and dice) ou en cascade (drill anywhere).
Transparence du serveur OLAP diffrents types de logiciels

Cette transparence se traduit pour l'utilisateur par un complment ses outils habituels garantissant ainsi sa productivit et sa comptence. Elle s'appuie sur une architecture ouverte permettant l'utilisateur d'implanter le systme OLAP sans affecter les fonctionnalits du systme central. Par ailleurs, l'utilisateur ne doit pas tre concern par l'intgration des donnes dans OLAP provenant d'un environnement homogne ou htrogne.
Accessibilit de nombreuses sources de donnes

Le systme OLAP doit donner accs aux donnes ncessaires aux analyses demandes. Les outils OLAP doivent avoir leur propre schma logique de stockage des donnes physiques htrognes, doivent accder aux donnes et raliser n'importe quelle conversion afin de prsenter l'utilisateur une vue simple et cohrente. Ils doivent aussi savoir de quel type de systmes proviennent les donnes.
Performance du systme de Reporting

L'augmentation du nombre de dimensions ou du volume de la base de donnes ne doit pas entraner de dgradation visible par l'utilisateur.
Architecture Client/Serveur

La plupart des donnes pour OLAP sont stockes sur des gros systmes et sont accessibles via des PC. Il est donc ncessaire que les produits OLAP soient capables de travailler dans un environnement Client/Serveur.
Dimensions Gnriques

Toutes les dimensions doivent tre quivalentes en structure et en calcul. Il ne doit exister qu'une seule structure logique pour toutes les dimensions. Toute fonction qui s'applique une dimension doit tre aussi capable de s'appliquer une autre dimension.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 99

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Gestion dynamique des matrices creuses

Le schma physique des outils OLAP doit s'adapter entirement au modle d'analyse spcifique cr pour optimiser la gestion des matrices creuses. En effet, dans une analyse la fois sur les produits et les rgions, tous les produits ne sont pas vendus dans toutes les rgions.
Support multi-utilisateurs

Les outils OLAP doivent supporter les accs concurrents, garantir l'intgrit et la scurit afin que plusieurs utilisateurs accdent au mme modle d'analyse.
Support multi-utilisateurs

Les outils OLAP doivent supporter les accs concurrents, garantir l'intgrit et la scurit afin que plusieurs utilisateurs accdent au mme modle d'analyse.
Calculs travers les dimensions

Les oprations doivent pouvoir s'effectuer sur toutes les dimensions et ne doivent pas faire intervenir l'utilisateur pour dfinir un calcul hirarchique.
Manipulation intuitive des donnes

Toute manipulation doit tre accomplie via une action directe sur les cellules du modle sans utiliser de menus ou des chemins multiples travers l'interface utilisateur.
Souplesse et facilit de constitution des rapports

La cration des rapports dans les outils OLAP doit permettre aux utilisateurs de prsenter comme ils le dsirent des donnes synthtiques ou des rsultats en fonction de l'orientation du modle.
Nombre illimit de niveaux d'agrgation et de dimensions

Tout outil OLAP doit grer au moins 15 20 dimensions.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 100

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

D'aprs EF CODD & Associates, les SGBD Relationnels n'ont jamais t conus pour fournir les puissantes fonctions de synthse, d'analyse et de consolidation communment appeles analyse multidimensionnelle des donnes. Ces types de fonctions ont toujours t prvus pour tre fournis par des outils spars, orients utilisateurs et complmentaires des SGBD Relationnels. Les tables vont tre transformes en un hypercube de donnes. Les donnes vont pouvoir tre visualises sous diffrents angles grce aux vues multidimensionnelles. OLAP, parce qu'il associe des mcanismes de navigation aux donnes, permet d'effectuer des analyses de manire interactive, l'oppos du requteur pour qui chaque requte est une fin en soi. Par contre, OLAP ne permet l'analyse d'information que dans un cadre prdfini, limitant ds lors l'autonomie potentielle de l'utilisateur. De ce fait requtes et outils OLAP doivent tre considrs comme complmentaires plutt que concurrents. Requtes et outils OLAP doivent tre considrs comme complmentaires plutt que concurrents.

1.2.1 TYPOLOGIE DES REGLES O.L.A.P.


Reprenant la structure du systme dcisionnel, nous rappelons quun systme danalyse multidimensionnelle peut se dcomposer en 2 Siad lmentaires, un SGBD, un Tableur. Ainsi, nous prsentons ces 12 rgles en les classant selon les lments du systme dcisionnel auxquels elles se rapportent. ( Cf Figure Ci-dessous).
12 Rgles de Codd. 5 Rgles

Analyse Mutidimensionnelle Systme & Architecture

SGBD_SIAD_2

2 Rgles

Tableur_SIAD_1

3 Rgles

Interface Utilisateur

2 Rgles

Tableau 20 : Ventilation des Rgles de Codd.

Ces rgles snoncent ainsi : Systme & Architecture


C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 101

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Larchitecture est Client / Serveur Laccs possible plusieurs utilisateurs simultanment La performance demeure stable quelque soit le volume de donnes Le systme est transparent pour lutilisateur Le systme gre dynamiquement les Matrices Creuses SGBD_SIAD_2 Vue Conceptuelle Multidimensionnelle des donnes Accessibilit toutes les donnes utiles la dcision Tableur_SIAD_1 Nombre Illimit de Dimensions et Nombre illimit de niveaux dagrgation Toutes les dimensions sont quivalentes en structure et en calcul Il ny a pas doprations restrictives sur les dimensions Interface Utilisateur Souplesse de Cration de Rapports Manipulation intuitive des donnes

1.2.2 COMMENTAIRES
Codd fixe la mthode de SGBD; celle-ci est multidimensionnelle. Cet aspect est dvelopp dans le paragraphe suivant au travers des mthodes M_OLAP et R_OLAP. Accessibilit toutes les donnes utiles la dcision entrane la possibilits daccder plusieurs bases de donnes internes ou externes lentreprise. Consquence : Codd recommande larchitecture Client-Serveur. Aucun tableur noffre un nombre infini de dimensions et de niveaux dagrgation. 15 20 dimensions font partie des performances actuelles. Enfin, nous pourrions regrouper les rgles orientes Utilisateur : Systme & Architecture Laccs possible plusieurs utilisateurs simultanment La performance demeure stable quelque soit le volume de donnes Le systme est transparent pour lutilisateur SGBD_SIAD_2 Accessibilit toutes les donnes utiles la dcision Interface Utilisateur Souplesse de Cration de Rapports Manipulation intuitive des donnes

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 102

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1 ANALYSE MULTIDIMENTIONNELLE
Les serveurs OLAP ont t conus pour s'intgrer dans un environnement client/serveur afin d'en retirer les possibilits offertes. Les utilisateurs disposant de postes de travail intelligents accdent un serveur de base de donnes multidimensionnelle. Celui-ci contient un hypercube prdfini dans lequel doit tre stocke la globalit des donnes. Ce qui ncessite de s'appuyer sur une information pr-package et fortement structure. Il permettra ainsi d'analyser la rpartition d'un indicateur comme le " chiffre d'affaire" en fonction des axes ou dimensions " clients ", " produit ", " temps". En outre, des hirarchies seront dfinies pour chaque axe d'analyse (par exemple, l'anne, puis la saison, le mois et la semaine, pour l'axe temps). Une fois cette structure multidimensionnelle tablie, l'outil OLAP propose des mthodes de navigation dans les donnes, comme le "drill-down" pour aller vers les informations dtailles dans une hirarchie, le "slice and dice" pour changer d'axe d'analyse.

Temps Client
4000 8000 7000 1000

3000 8000

12000

1000
2000 6000

8000

Produit
Tableau 21 : reprsentation sous forme de cube

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 103

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 LE MODLE 1.1.1 LES DIMENSIONS


Un axe danalyse essentiel est la dimension temps. Les tables contiennent des ranges (tuples, enregistrements). Chaque range est constitue de colonnes (champs). Dans une base de donnes standard, le premier champ de chaque enregistrement est la cl primaire, l'unique identifiant de l'enregistrement. Par contre, le modle de donnes multidimensionnel est un tableau n dimensions (hypercube). Chaque dimension possde une hirarchie associe de niveaux de consolidation. Chaque position dans un tableau multidimensionnel, correspondant une intersection de toutes les dimensions est appele une cellule. Ces dimensions peuvent tre affines, dcomposes en hirarchies, afin de permettre lutilisateur dexaminer ses indicateurs diffrents niveaux de dtail, de " descendre " dans les donnes, allant du niveau global au niveau le plus fin. Par exemple, une date pourra tre dcompose en <anne, mois, semaine, jour>. On aura alors une vision pyramidale des donnes, la base de la pyramide reprsentant le niveau le plus dtaill et le haut le niveau le plus global.

Anne

Hirarchie d'une dimension


Semaine Jour

Mois

Produit Priode
Dimensions d'analyse

Indicateurs numriques

Tableau 22 : reprsentation pyramidale

Lutilisateur peut avoir besoin de personnaliser le modle dfini par ladministrateur en incorporant par exemple ses propres attributs dans les dimensions ou en modifiant certaines des hirarchies.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 104

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.2 LES VARIABLES


Les variables, qui sont aussi appeles mtriques, dans un tableau multidimensionnel correspondent aux colonnes d'une table relationnelle. Les valeurs l'intrieur d'une colonne correspondent aux valeurs pour cette variable dans un tableau multidimensionnel. Par rapport laxe temps, nous pouvons distinguer deux types de variables analyser : des variables de flux, dont les variations sont enregistres dans la base de donnes. Pour dterminer leur montant pendant une certaine priode, il suffit de cumuler les diffrentes variations ayant eu lieu dans cette priode. Par exemple, pour obtenir le chiffre d'affaire du mois de Mai 1998, il suffit de faire la somme des chiffres d'affaire de chaque jour du mois. des variables dtat, indiquant le contenu dune variable un instant t. Le cumul des valeurs prises dans une priode donne nindique gnralement plus la valeur de cette variable pour cette priode. Par exemple pour une variable indiquant ltat du stock au dbut de chacun des trimestres, lentreprise peut considrer que ltat du stock pour lanne est gal son tat au 1er trimestre. Les valeurs des 4 trimestres nont donc pas tre cumules pour obtenir le stock annuel. Ladministrateur ou lutilisateur doit pouvoir indiquer loutil si une variable est une variable dtat et quelle valeur elle devra prendre pour un attribut donn. Les mtriques de base sont lassociation dune colonne de fait et dune fonction dagrgation. Il est indispensable que lutilisateur puisse aller au-del et utiliser des mtriques complexes, drives de ces lments de base en dfinissant des mtriques composes dautres mtriques, filtres ou calcules par rapport une dimension particulire. Une variable sera lue indicateur selon la stratgie choisie. Par exemple pour analyser les ventes on choisira comme indicateur la variable CA (chiffre daffaires). Lutilisateur formulera alors ses requtes en prcisant les indicateurs analyser (le chiffre daffaires), les dimensions sur lesquelles ces analyseurs doivent tre projetes (le produit et le client) et la population observer (le mois de Mars 1998).

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 105

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 NAVIGATION DANS LES DONNES 1.1.1 DRILL-DOWN, DRILL-UP


Le drill-down / up dsigne la facult daller du niveau global vers le niveau dtaill, et inversement. Ce mcanisme est totalement bas sur la notion de hirarchie. Chacun des axes danalyse se dcompose en attributs relis entre eux par des relations pre / fils. Une dimension doit normalement pouvoir comporter plusieurs hirarchies. Par exemple, la dimension " produits " peut contenir une hirarchie " Marque-Article " et une hirarchie " Secteur-Segment-Article ". Le mcanisme de drill-down se fera ainsi de la marque vers larticle et du secteur vers le segment puis vers larticle. La mise en uvre de cette fonctionnalit nest cependant pas toujours aussi simple. En effet, une dimension peut contenir des hirarchies partant dun mme attribut pour aller vers un attribut diffrent. Par exemple, laxe " Clients " peut contenir la hirarchie " Client-Individu " et la hirarchie " Client-Socit-Filiale ". Loutil doit alors permettre soit de redescendre de Client vers la fois Individu et Socit puis de redescendre au niveau Filiale pour les clients de type Socit, soit plus simplement, permettre lutilisateur de choisir de redescendre vers le niveau Individu ou vers le niveau Socit.
Secteur Client

Marque

Segment

Individu

Socit

Article

Filiale

Tableau 23 : exemple de hirarchies multiples

1.1.2 SLICE AND DICE


Le " Slice and dice " dsigne la possibilit de faire pivoter dynamiquement les axes du tableau danalyse croise. Il est possible ainsi de passer dun tableau prsentant les ventes par magasin en lignes et jour en colonnes par un tableau similaire prsentant les ventes par magasin en colonnes et jour en ligne.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 106

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.3 DATA SURFING


Le data surfing est la possibilit laisse lutilisateur de circuler librement, de manire intuitive et ergonomique dans un modle dimensionnel, au del dun " simple " drill-down ou slice and dice. Lutilisateur peut alors modifier dynamiquement ses axes danalyse ou appliquer un nouveau filtre ses donnes. Ces mcanismes sappliquent sur le modle dfini soit par ladministrateur, soit par lutilisateur. Ce modle doit tre assez complexe pour adresser lensemble des demandes de lutilisateur et assez souple pour que lutilisateur puisse le personnaliser son got, en crant de nouveaux attributs ou de nouveaux axes danalyse ou en dfinissant de nouvelles mtriques calcules.

1.2 PROBLEME DES MATRICES CREUSES


Dans un cube idal, toutes les cellules ont une valeur, on parle alors de cube dense. Ceci est cependant rarement le cas. Si certaines valeurs sont absentes, on parlera de cellules creuses, dparpillement (sparcity). Ceci se rencontre notamment dans les cas suivants : des enregistrements nappartenant qu une seule dimension. des dimensions qui nont pas de valeur pour chaque occurrence. Plus on a de dimensions, plus le risque dparpillement des donnes est grand. des dimensions comportant des valeurs exclusives. Par exemple, la dimension sexe est cre, chaque enregistrement sera soit homme, soit femme, ce qui engendrera un fort taux de cellules creuses lors de lanalyse du CA par client et par sexe. Autre exemple, dans un magasin on ne vend pas chaque jour tous les articles. Le cube comportera alors un nombre important de cellules creuses. Lajout de colonnes pr-calcules fera aussi crotre de manire significative la taille de la base de donnes. Dans un contexte de donnes stockes sous un format dhypercube, il est donc important de choisir ses dimensions avec attention, den restreindre le nombre en dfinissant le plus possible de dimensions composes. Une autre alternative est de diviser un hypercube en de petits cubes. Le stockage des donnes sous une forme relationnelle permet dluder ces problmes de place et de cellules creuses.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 107

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1 MODELISATION
Modliser est une tche dlicate car elle met en jeu des populations diffrentes. Les administrateurs de donnes et les utilisateurs "mtiers" doivent crer un modle global et cohrent pour l'entreprise. Les donnes du Data Warehouse doivent tre orientes " sujet ", facilement comprhensibles et utilisables par les utilisateurs. Le modle doit donc tre adapt leur dmarche de recherche et danalyse. Les modles relationnels normaliss ne sont alors pas toujours lidal. En effet, ils correspondent gnralement plus une vision " technique " et informaticienne des donnes qu une vision utilisateur. Ils peuvent rpondre aux requtes ensemblistes (liste des commandes dun client) ou dtailles (adresse et numro de tlphone dun client) mais adressent trs peu la notion danalyse qui est essentielle dans le monde dcisionnel. Ce concept est gnralement li une vision multidimensionnelle des donnes. Lutilisateur peut ainsi analyser des informations selon diverses perspectives, par rapport diffrents axes (par exemple les ventes par rapport aux dimensions temps, rgions et clients). La dnormalisation du modle des donnes, la redondance dinformations sont totalement envisageables dans un contexte de Data Warehouse car la non volatilit des donnes permet de ne pas se proccuper, lors de lutilisation du Data Warehouse, des problmes dintgrit des donnes ou de transaction. Afin de rpondre ce type de besoin tout en conservant la technologie des SGBD relationnels, il sera souvent ncessaire de modliser les donnes de manire particulire, en distinguant les diffrents axes et les indicateurs analyser. On parlera alors de modle en toile (star) ou en flocon (snowflake). Le serveur de donnes devra donc permettre la gestion de gros volumes dinformations et supporter les machines parallles. Afin doffrir lutilisateur une performance optimale, il sera indispensable dagrger physiquement les donnes (par exemple par rapport au temps), et souvent ncessaire de partitionner ces donnes. Cinq axes permettent de qualifier un modle dcisionnel : Lisibilit du point de vue de l'utilisateur final. Performances de chargement Performances d'excution Administration, c'est dire faire vivre le Data Warehouse Evolutivit, que tous les autres projets dcisionnels s'intgrent facilement Le choix entre modle dimensionnel (toile ou flocon) et le modle relationnel (normalis ou non) dpend du type du besoin dcisionnel construire.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 108

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 MODLISATION RELATIONNELLE 1.1.1 MODLE DE DONNES NORMALIS


Ce modle est trs classique , il est formalis par des mthodes comme MERISE. Il est trs complet car on y trouve beaucoup de donnes dtailles, ce qui laisse beaucoup dautonomie lutilisateur. Par contre aucune information intressante dans un contexte dcisionnel nexiste directement. Les outils dinfocentre ou de " query " accdent pour la plupart un modle de donnes relationnel quelconque. Lanalyse multidimensionnelle de ces donnes pourra alors se faire directement partir dun rsultat de requte SQL. Les possibilits danalyse sont alors assez sommaires (par ex., dfinition dun tableau danalyse croise). La seconde technique consiste gnrer et manipuler, partir du rsultat dune requte SQL, un hypercube, le plus souvent stock en local. Cette manipulation pourra tre faite soit par loutil de query lui mme, soit par un outil complmentaire ddi ce type danalyse. Lhypercube gnr ne permettra alors danalyser quune partie des donnes de lentreprise, celles correspondant au contexte de la requte. Lorsque le modle comprend un grand nombre de tables, les performances deviennent alors trs mauvaises et les requtes complexes formuler par lutilisateur.

1.1.2 MODLE DE DONNES DNORMALIS


On prend le modle normalis et le simplifie afin quil rponde mieux aux exigences du dcisionnel. Cette dnormalisation nest pas ralise en sappuyant sur une technique prcise mais plutt en sintressant aux besoins des utilisateurs. On va ainsi crer des redondances dinformations et des informations agrges qui diminueront le nombre de tables. De ce fait, on amliorera les temps de rponse et on facilitera laccs aux informations par les utilisateurs car le modle lui apparatra comme plus lisible.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 109

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.2 MODLISATION DIMENSIONNELLE


La modlisation dimensionnelle drive des concepts OLAP. Les produits utilisent une structure de donnes multidimensionnelle. Elle permet lutilisation de bases de donnes relationnelles ou multidimensionnelles. Lobjectif majeur dun systme dcisionnel est lanalyse de la performance. On mesure cette performance au travers des indicateurs que lon a retenu. Ces indicateurs vont donc tre la base de la modlisation dimensionnelle et tre regroups dans une table dite table des faits.

1.2.1 MODLISER EN TOILE


Dans un modle en toile, tous les faits sont dfinis dans une simple table relationnelle. Cette table des faits va tre relie par cls primaires dautres tables correspondant aux dimensions. Dans l'exemple ci-aprs il s'agit des PRODUITS, BRANCHE, REGION et TEMPS. En fait, le modle en toile essaie de superposer une structure multidimensionnelle au dessus d'un modle relationnel normalis deux dimensions. Le modle en toile simplifie le modle logique normalis en organisant les donnes de manire optimale pour les traitements d'analyse.

1.2.2 MODLISER EN FLOCON


La modlisation en flocon est une modlisation en toile pour laquelle on clate les tables de dimensions en sous-tables selon la hirarchie de cette dimension. Dans notre exemple, on clatera PRODUITS, BRANCHE, REGION et TEMPS . Dans les deux types de modles dcrits ci-dessus, on saperoit que les points forts sont la lisibilit du modle par lutilisateur et la performance dexcution. Mais par contre on peut leur reprocher leur manque de compltude et leur orientation rapidement trs mtier avec le risque dvolution du modle trs problmatique.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 110

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

PRODUITS Couleur Taille Emballage

TABLE de FAITS

REGION Bureaux de ventes

PRODUIT REGION BRANCHE TEMPS

Administration

BRANCHE Ventes au dtail Ventes en gros Importation Exportation

CA Marge Unit

TEMPS Semaines Mois Trimestres Anne Fiscale

Tableau 24 : exemple de modle en toile

Concrtement, la table des faits est norme en nombre de lignes mais le volume de chaque ligne est limit. Les tables de dimensions sont elles beaucoup plus rduites. On accde aux tables des dimensions par une slection. Par exemple le CA pour les produits lectromnagers pour lanne 97 pour la rgion Nord. On y rcupre les identifiants qui seront les uniques points dentres la table des faits pour y trouver le CA correspondant. Une fois le modle dfini, la facult de naviguer dans les donnes est un apport important des outils OLAP (MOLAP, ROLAP).

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 111

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 STOCKAGE DES DONNEES


Ces besoins en terme danalyse multidimensionnelle peuvent influer dune part sur le modle physique, dautre part sur la vision que les utilisateurs ont des donnes. Les donnes peuvent tre stockes soit sous forme multidimensionnelle, soit sous forme relationnelle. Les bases multidimensionnelles sont conues pour optimiser l'analyse d'indicateurs (CA) par rapport aux dimensions qui leur sont associes (temps, produit, rgion). Elles sont de moins en moins exigeantes en terme de volume de stockage (technique de compression). Les bases relationnelles sont conues l'origine pour le dcisionnel. Elles sont plus ouvertes et s'adaptent de nombreuses plates formes.

2.1 LE STOCKAGE DES DONNES EXTERNES


Les donnes qui ne sont pas gnres par les systmes informatiques de lentreprise sont appeles des donnes externes et sont introduites sans formatage pralable. Elles ne sont donc pas forcment structures. Typiquement, les donnes externes qui sont dans lentrept de donnes arrivent dans lentreprise par lintermdiaire dun poste client. Elles sont saisies manuellement dans un tableur, ce qui laisse peu de chances didentifier dou viennent les donnes ainsi que leurs contenus. Dautres types de donnes ont fait leur apparition, il sagit du son et de limage qui sont, sans compression, particulirement volumineux. Lentrept de donnes est le lieu idal pour stocker des donnes externes et non structures. Si ces donnes ne sont pas stockes dans un endroit bien dfini, on ne peut plus savoir do viennent les donnes et on laisse la porte ouverte aux ventuelles redondances. Les donnes externes peuvent tre stockes au sein mme de lentrept de donnes. Toutefois, pour diminuer le cot de stockage de ces donnes, on prfrera les stocker sparment, sur un support conomique. A la dtection des donnes externes, on choisira de rediriger le stockage de ces donnes vers des priphriques darchivage ddis. Le composant de base support du stockage est le SGBD. Outre le stockage, le SGBD doit tre spcifiquement adapt aux caractristiques de laccs dcisionnel. Ces technologies sont principalement lies la paralllisation des requtes et diverses optimisations proposes pour acclrer les slections et les regroupements ensemblistes.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 112

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.2 OPTIMISATION PHYSIQUE


Du fait de limportance de lhistorique dans un Data Warehouse, la structuration physique des donnes est galement importante. Parmi les optimisations proposes par les diteurs, on notera les index bitmaps (Sybase , Oracle), ou la gnration assiste des agrgations (HP, Informix, Oracle, etc.) ainsi que le partitionnement des tables.

2.2.1 AGREGATION DE TABLES


Les requtes faisant appel des donnes agrges forment 80 % des demandes effectues dans un systme dcisionnel. La construction de tables agrges permet d'amliorer trs nettement les temps de rponse de ces requtes. Par exemple, on cre une table des ventes mensuelles reprsentant la somme des ventes journalires par magasin et cela sur chacun des mois.

ventes journalires

VENTES

Ventes mensuelles

Ventes annuelles

Tableau 25 : exemple de tables agrges

Cette technique d'optimisation trouve ses limites lorsque les bases des donnes atteignent un volume important. Autre inconvnient, l'administration est complexe.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 113

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.2.2 PARTITIONNEMENT DE TABLES


Un partitionnement physique des tables en plus petites units selon le critre temps apporte des performances stables dans le temps, des facilits pour les reprises, les indexations, les restructurations et larchivage. Notre table des ventes sera clate en 12 tables, soit une par mois.

ventes Ile de France

Ventes Prigord

VENTES
Ventes Provence

Ventes Autres

Tableau 26 : exemple de tables partitionnes

Cette technique n'est pas simple administrer.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 114

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.3 LES MTA-DONNES


Les mta-donnes sont des donnes sur les donnes. Les mta-donnes reprsentent la totalit des informations concernant le Data Warehouse et les processus associs. Elles sont intgres dans un rfrentiel. La mta-donne va galement servir de mmoire pour les donnes externes en recueillant les informations suivantes : lidentifiant du document, sa date dentre dans lentrept de donnes, la description du document, lorigine du document, la date dorigine du document, les mots indexs du document , la date dpuration, la place physique du document, sa longueur... Dans le cadre doutils OLAP, les mta-donnes sont, pour lessentiel, la structure multidimensionnelle elle-mme. Pour un outil daide la dcision, elles ont pour vocation de prsenter lutilisateur des lments qui lui sont familiers et quil pourra donc analyser facilement, de manire intuitive. Dans le cas doutil Rolap, les mta-donnes ont pour but de transformer le modle de stockage relationnel en une vision utilisateur multidimensionnelle. Le mode de stockage privilgi pour les mta-donnes est le serveur relationnel. Elles sont ainsi stockes une seule fois et accessibles par lensemble des utilisateurs. La mise jour de lenvironnement client peut alors seffectuer de deux manires : soit en rapatriant chaque connexion le contenu des mta-donnes, soit en ramenant en local les mta-donnes et en les mettant jour de manire automatique lorsquun changement est survenu. Cette deuxime solution est plus performante, un nouveau catalogue ntant ramen quune fois sur le poste local.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 115

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

3 LES DIFFERENTS OUTILS OLAP


OLAP sera l'outil privilgier pour les donnes quantitatives si leur structuration a priori est naturelle (cas rencontr frquemment pour les applications financires ou commerciales), alors que le requteur sera idal pour les donnes qualitatives et pour toute analyse impromptue ncessitant l'autonomie de l'utilisateur (cas rencontr frquemment pour le marketing ou la gestion du personnel). Si les besoins sont combiner, il faudra choisir entre la richesse fonctionnelle apporte par plusieurs outils interfacs ou lhomognit des outils intgrs. Deux versions d'OLAP s'affrontent actuellement. Les outils MOLAP (Multidimensional OLAP) d'une part qui s'appuient sur une base de donnes multidimensionnelle. Les outils ROLAP (Relational OLAP) d'autre part, qui reprsente leur quivalent sur une base de donnes relationnelle.

3.1 LES OUTILS MOLAP


MOLAP est conue exclusivement pour l'analyse multidimensionnelle, avec un mode de stockage optimis par rapport aux chemins d'accs prdfinis. Ainsi, toute valeur d'indicateur associe l'axe temps sera pr-calcule au chargement pour toutes ses valeurs hebdomadaires, mensuelles, etc.
Aide la dcision

Data Warehouse

Moteur MOLAP

Donnes Stockage des donnes dtailles (et agrges)

Traitements

Prsentation Rapports Multi-Dimensionnel

Tableau 27 : architecture dun produit Molap (EDS)

MOLAP agrge tout par dfaut. Plus le volume de donnes grer est important, plus les principes d'agrgations implicites proposs par MOLAP sont pnalisants dans la phase de chargement de la base, tant en terme de performances que de volume. La limite frquemment voque pour MOLAP tant de quelques giga octets.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 116

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

MOLAP surpasse ROLAP pour des fonctionnalits avances comme la prvision ou la mise jour des donnes pour la simulation. Cependant, ces diffrences s'expliquent par une plus grande maturit en faveur de MOLAP, concept qui date de prs de vingt ans. MOLAP est incompatible avec d'autres modes d'accs aux donnes. Si MOLAP doit cohabiter avec d'autres techniques d'accs aux donnes (par requteur, par data mining, etc.), deux bases de donnes doivent cohabiter. En effet, MOLAP repose sur un moteur spcialis, qui stocke les donnes dans un format tabulaire propritaire (cube). Pour accder aux donnes de ce cube, on ne peut pas utiliser le langage de requte standard SQL, il faut utiliser une API spcifique. Le march des bases MOLAP tant plus rduit, il est plus difficile pour les diteurs qui le reprsentent d'investir sur de telles volutions.

3.2 LES OUTILS ROLAP


Les outils ROLAP superposent au dessus des SGBD/R bidimensionnels un modle qui reprsente les donnes dans un format multidimensionnel. Ces produits diminuent sensiblement le cot li la mise en uvre d'un serveur de base de donnes multidimensionnelle supplmentaire. Au travers des mta-donnes, ils permettent de transformer lanalyse multidimensionnelle demande par lutilisateur en requtes SQL. Pour cela, ces outils sappuient pour la plupart sur une modlisation particulire des donnes, distinguant les axes danalyse et les faits observer. On parlera notamment de modle en toile et de modle en flocon ou encore des techniques de dfinition physique d'agrgations. Ceci oblige dfinir le modle en fonction de loutil utiliser et des analyses mener mais est un gage de performance et de cohrence lors de lutilisation de ce type de produits. Cette contrainte exige un travail important des quipes informatiques et donc enlve beaucoup l'intrt d'utiliser un SGBD Relationnel comme support de stockage pour l'analyse multidimensionnelle.
Data Warehouse Moteur ROLAP Aide la dcision

Donnes Stockage des donnes dtailles (et agrges) et des mta-donnes

Traitements Gnration de plans d'excution SQL afin d'obtenir des fonctionnalits OLAP.

Prsentation Rapports Multi-Dimensionnel

Tableau 28 : architecture dun produit Rolap (EDS)

Les outils ROLAP proposent le plus souvent un composant serveur, pour optimiser les performances lors de la navigation dans les donnes ou pour les calculs complexes. Avec
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 117

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

ROLAP, il est dconseill d'accder en direct des bases de donnes de production pour faire des analyses srieuses, pour des raisons de performances. ROLAP n'agrge rien, mais tire parti des agrgats s'ils existent. De ce fait ROLAP est plus lourd administrer que MOLAP, puisqu'il demande de crer explicitement certains agrgats. Certains diteurs, comme Informix avec Mtacube ou Oracle avec Discoverer 2000, pallient cependant cette faiblesse avec des outils d'administration aptes conseiller pour une politique d'agrgation adquate. ROLAP est donc mieux adapt aux gros volumes. En s'appuyant sur les bases relationnelles, rfrence du march, ROLAP tire partie des volutions de celles-ci (adaptation aux architectures hardware sophistiques, extensions objets, etc.).

EDITEUR
ARBOR SOFTWARE ORACLE DIMENSIONAL INSIGHT INFORMIX MICROSTRATEGY PLATINUM TECHNOLOGY

PRODUIT
ESSBASE EXPRESS CROSS TARGET METACUBE DSS AGENT INFOBEACON

MOLAP

ROLAP

Tableau 29 : principaux outils MOLAP et ROLAP

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 118

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

4 L'ALIMENTATION DU DATA WAREHOUSE


Les donnes du Data Warehouse sont, pour la plupart, issues des diffrentes sources de donnes oprationnelles de lentreprise. Des solutions logicielles sont alors ncessaires leur intgration et leur homognisation. Celles-ci peuvent aller de lcriture de batchs lutilisation de logiciels spcialiss dans lextraction et la transformation dinformations (ETI, Prism, Carleton, ...). Ces outils ont pour objet de sassurer de la cohrence des donnes du Data Warehouse et dhomogniser les diffrents formats trouvs dans les bases de donnes oprationnelles. Les solutions de rplication sont souvent cites comme pouvant rpondre ce besoin. Trs lies un diteur et une technologie, elles ne sont en fait adaptes qu un trs petit nombre de cas, o les donnes sont issues de sources homognes et nont pas besoin dtre transformes. Alimenter le Data Warehouse est la difficult technique majeure et la plus coteuse.

4.1 LES PHASES DE L'ALIMENTATION


Les phases de l'alimentation du Data Warehouse sont les suivantes : Dcouvrir quelles sont les donnes faire migrer. Lacquisition des donnes se droule en trois phases : lextraction, la transformation et le chargement.

Extraction, Transformation Logiciels spcialiss Batch

Donnes de production

Outils clients Aide la dcision (interrogation, analyse) Data Mining (extraction de connaissances)

Modlisation, Chargement, Stockage, Optimisation SGBD Architecture parallle Acclrateurs de requtes Adaptation modles spcifiques

Tableau 30 : les besoins et les outils du Data Warehouse (EDS)

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 119

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 LA DECOUVERTE DES DONNES


La dcouverte des donnes consiste les localiser dans le systme oprationnel et prendre les plus judicieuses. Un mauvais choix des donnes a extraire va complexifier les phases suivantes de l'alimentation

1.2 L'EXTRACTION DES DONNES.


Lextraction des donnes consiste collecter les donnes utiles dans le systme de production. Pour rafrachir la base dcisionnelle, il faut identifier les donnes ayant volu afin dextraire le minimum de donnes, puis planifier ces extractions afin dviter les saturations du systme de production. Le processus d'alimentation doit automatiquement et priodiquement rafrachir les donnes et de prfrence uniquement celles qui ont t modifies afin d'optimiser les performances. On ralisera des extractions diffrentielles en marquant les donnes (date dans un fichier LOG). Cette fonctionnalit devient importante lorsque le volume de donnes devient important. Lintgrit des donnes est indispensable et ncessite la synchronisation des diffrents processus dextraction. Les problmes lis cette ncessaire synchronisation peuvent tre complexes, soit fonctionnellement, soit techniquement dans des environnements trs htrognes. Un autre problme est de traiter les donnes externes. Il faut maintenir une surveillance du systme dinformation pour pouvoir les identifier et sassurer que ce sont les bonnes donnes qui sont recenses. De plus, la forme des donnes externes, qui est souvent totalement anarchique accentue la difficult. Pour tre utiles, ces donnes ncessitent un reformatage pour pouvoir les incorporer dans une forme exploitable pour lentreprise. Enfin le troisime problme vient de lapparition imprvisible de ces donnes qui les rend difficiles capter. En consquence, l'outil d'extraction doit attaquer toutes sortes de sources de donnes sans tre perturb et sadapter aux futures. Pour extraire les donnes sources, il y a plusieurs technologies utilisables : des passerelles, fournies principalement par les diteurs de bases de donnes. Ces passerelles sont gnralement insuffisantes car elles sont mal adaptes aux processus de transformation complexes ; des utilitaires de rplication, utilisables si les systmes de production et dcisionnel sont homognes et si la transformation appliquer aux donnes est lgre ; des outils spcifiques dextraction. Ces outils sont certainement la solution oprationnelle au problme de lextraction, mais leur prix relativement lev est un frein leur utilisation dans les premires applications.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 120

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 LA TRANSFORMATION DES DONNES


Le nettoyage des donnes est une discipline sur laquelle de nombreux diteurs travaillent actuellement. Outre la qualit des donnes quils permettent dauditer et ventuellement damliorer, les outils de nettoyage permettent de supprimer les doublons dans les fichiers. Il s'agit ce stade d'appliquer des filtres prdfinis sur les donnes afin d'attribuer des valeurs cohrentes aux variables mal ou non renseignes ou encore d'harmoniser les formats (date : jj/mm/aaaa). On peut galement avoir convertir les donnes d'un format EBCDIC vers ASCII. Dernier exemple, des donnes du systme oprationnel doivent tre agrges ou calcules avant leur chargement dans la base dcisionnelle. Il faut galement pouvoir associer des champs sources avec des champs cibles. Il existe plusieurs niveaux de complexit pour ces associations (cardinalits 1-1, 1-N, N-1 , N-N), comme par exemple : le transfert du "nom du client" vers un champ cible la dcomposition d'une "adresse" vers les champs "numro", "rue", "ville" ou l'inverse. Certains outils peuvent galement raliser des analyses lexicales des champs sources. Ils seront donc capables de comprendre que les champs suivants signifient la mme chose : "Boulvd", "Bd" ,"Boulevard". En complment, on trouve des outils d'audit et d'analyse pour assurer le suivi du processus afin notamment de contrler les rejets.

1.1 LE CHARGEMENT DES DONNES


Le chargement est la dernire phase de lalimentation du Data Warehouse. Cest une phase dlicate notamment lorsque les volumes sont importants. Pour obtenir de bonnes performances en chargement, il est impratif de matriser les structures du SGBD (tables et index) associes aux donnes charges afin doptimiser au mieux ces processus. Les techniques de paralllisation optimisent les chargements lourds. Pour les mettre en uvre, des utilitaires particuliers existent chez la majorit des diteurs de bases de donnes. La synchronisation des chargements de la source vers la cible est un problme majeur.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 121

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Pour raliser ce transfert des donnes, on peut utiliser le transfert de fichiers ou le transfert de bases bases. Le transfert de fichiers consiste crer au moment de l'extraction des donnes, un ensemble de fichiers qui seront transfrs sur le systme cible afin d'alimenter la base dcisionnelle. La transformation des donnes s'effectuera alors soit la constitution des fichiers, soit leur arrive sur la cible. Le transfert de base base est plus complexe, en effet chaque donne est extraite de la base source, nettoye si ncessaire, et transfre sur la base cible. Des logiciels contrlent souvent les phases d'extraction, de transport et de chargement. Ils crent un enchanement automatis et grent les mises jour mais ils sont rarement capables de s'occuper galement du nettoyage des donnes Il faut donc souvent combiner les outils pour alimenter un Data Warehouse. EDITEUR EXTRACT SUITE PASSPORT WAREHOUSE MANAGER VALITY TECHNOLOGIE PRODUIT ETI CARLETON PRISM SOLUTIONS INTEGRITY DATA REENGINEERING

Tableau 31 : principaux outils dextraction et de nettoyage

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 122

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 QUELQUES CHIFFRES 2.1 LE MARCH DU DATA WAREHOUSE


IDC estime que les investissements en Europe destins la mise en uvre de Data Warehouse taient de 2,4 milliards de dollars en 1995. Ces cots intgrent les budgets internes, mais aussi lachat dquipements, de logiciels, ou de services. Le tableau suivant illustre la rpartition du revenu concernant le march du Data Warehouse telle quelle est identifie par le Gartner Group. Ces chiffres sont exprims en millions de dollars. Comme on peut le constater ce march est en progression annuelle de plus de 35 %. Cest donc un trs gros march pour tous les acteurs dun point de vue financier, mais galement par son positionnement orient valeur ajoute.

Total Extraction de donnes Administration SGBDR Matriel Services

1994 1 568 65 10 288 1 075 130

1999 6 969 210 450 1 100 3 950 1 250

Progression annuelle 34,7 % 26,4 % 114,1 % 30,7 % 29,7 % 57,3 %

Tableau 32 : rpartition du revenu du march du Data Warehouse Donnes en millions de francs (source Gartner Group)

Les chiffres suivants prsentent les rsultats dune tude ralise en 1996 par le Data Warehousing Institute. Au niveau des dploiements, ces chiffres sont impressionnants : plus de 40 % des socits ont dbut la mise en place de leur Data Warehouse et plus de 30 % ont prvu de le faire dans les 3 ans. Au niveau des volumes de donnes, la majorit des systmes en place ne dpassent pas 100 gigaoctets, mais peu sont de taille infrieure 5 gigaoctets. Le march mondial du data warehouse reprsentait 300 millions de dollars en 1995. Il devrait atteindre 800 millions de dollars en 2000 (source Meta Group) Plus de la moiti des entreprises amricaines ont achet un outil de datamining en 1997 (source IDC)

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 123

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.2 LE RETOUR SUR INVESTISSEMENTS


Les grands cabinets danalyse se sont penchs sur les ralisations les plus significatives dans le domaine du Data Warehousing, en particulier sous langle conomique. Ainsi, IDC a analys lapport dun Data Warehouse dans les entreprises. 62 organisations amricaines et europennes ont t interroges. Voici une synthse des rsultats : Retour sur investissement sur 3 ans : la moyenne est de 401 %, la mdiane de 167 %. 90 % des entreprises consultes ont remarqu un retour sur investissement suprieur 40 %. Pour 13 % des entreprises, le retour sur investissement a dpass 1000 %. Lquilibre sur investissement (en anglais payback) est atteint en moyenne en 2,31 ans, la mdiane tant de 1,67 ans. Linvestissement moyen est de 2,2 millions de dollars. Malgr ces chiffres loquents, il est difficile de dcrire de manire gnrique et qualitative les bnfices dun Data Warehouse : trs lis la stratgie de lentreprise, ceux-ci dpendent ncessairement de son secteur dactivit. Par exemple, une tude mene par AT&T Teradata indique que dans la grande distribution, les principales zones dopportunit sont : une augmentation des ventes au travers dun marketing mieux cibl ; une amlioration des taux de rotation des stocks ; la rduction des stocks de produits devenus obsoltes ; la rduction des manques gagner lis aux rabais, remises et ristournes ; la diminution des cots des produits des fournisseurs, lis une meilleure ngociation des prix des produits.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 124

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1 INTRODUCTION AU DATA MINING 1.1 L'ENVIRONNEMENT DE L'ENTREPRISE


Laccroissement de la concurrence, lindividualisation des consommateurs - la dmassification - et la brivet du cycle de vie des produits obligent les entreprises non plus simplement ragir au march mais lanticiper. Elles doivent galement cibler au mieux leur clientle afin de rpondre ses attentes. La connaissance de son mtier, des schmas de comportement de ses clients, de ses fournisseurs est essentielle la survie de lentreprise, car elle lui permet danticiper sur lavenir. Aujourdhui, les entreprises ont leur disposition une masse de donnes importante. En effet, les faibles cots des machines en terme de stockage et de puissance ont encourag les socits accumuler toujours plus dinformations. Cependant, alors que la quantit de donnes traiter augmente normment - l'institut EDS estime que la quantit de donnes collectes dans le monde double tous les 20 mois - le volume dinformations fournies aux utilisateurs naugmente lui que trs peu. Ces rservoirs de connaissance doivent tre explors afin den comprendre le sens et de dceler les relations entre donnes, des modles expliquant leur comportement. Dans cette optique, la constitution dun Data Warehouse, regroupant, sous une forme homogne, toutes les donnes de lentreprise sur une longue priode, offre des perspectives nouvelles aux utilisateurs, notamment en terme dextraction de connaissances grce aux outils de Data Mining.

1.2 PRESENTATION DU DATA MINING


Le terme de Data Mining est souvent employ pour dsigner lensemble des outils permettant lutilisateur daccder aux donnes de lentreprise, de les analyser. Nous restreindrons ici le terme de Data Mining aux outils ayant pour objet de gnrer des informations riches partir des donnes de lentreprise, notamment des donnes historiques, de dcouvrir des modles implicites dans les donnes. Ils peuvent permettre par exemple un magasin de dgager des profils de client et des achats types et de prvoir ainsi les ventes futures. Il permet daugmenter la valeur des donnes contenues dans le Data Warehouse. Les outils daide la dcision, quils soient relationnels ou OLAP, laissent linitiative lutilisateur, qui choisit les lments quil veut observer ou analyser. Au contraire, dans le cas du Data Mining, le systme a linitiative et dcouvre lui-mme les associations entre donnes, sans que lutilisateur ait lui dire de rechercher plutt dans telle ou telle direction ou poser des hypothses. Il est alors possible de prdire lavenir, par exemple le comportement dun client, et de dtecter, dans le pass, les donnes inusuelles, exceptionnelles.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 125

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Ces outils ne sont plus destins aux seuls experts statisticiens mais doivent pouvoir tre employs par des utilisateurs connaissant leur mtier et voulant lanalyser, lexplorer. Seul un utilisateur connaissant le mtier peut dterminer si les modles, les rgles, les tendances trouves par loutil sont pertinentes, intressantes et utiles lentreprise. Ces utilisateurs nont donc pas obligatoirement un bagage statistique important, du moins est-ce lobjectif vis. Loutil doit donc soit tre ergonomique, facile utiliser et rendant transparentes toutes les formules mathmatiques et termes techniques utiliss, soit permettre de construire une application cl en main, rendant lutilisateur transparentes toutes les techniques utilises. On pourrait dfinir le DATA MINING comme une dmarche ayant pour objet de dcouvrir des relations et des faits, la fois nouveaux et significatifs, sur de grands ensembles de donnes. On devrait ajouter que la pertinence et l'intrt du data mining sont conditionns par les enjeux attachs la dmarche entreprise, qui doit tre guide par des objectifs directeurs clairement explicits ("amliorer la performance commerciale", "mieux cibler les prospects", "fidliser la clientle", "mieux comprendre les performances de production"...). Le succs du concept de DATA WAREHOUSE et le nombre croissant de bases de donnes dcisionnelles disponibles dans les entreprises, dynamise fortement l'offre data mining. Cette offre tend se dmocratiser, en cherchant rendre accessible au plus grand nombre, les divers outils du data mining. Pour cela, elle adopte de plus en plus un caractre "moderne" et "convivial", parfois "bote noire" pour ne pas dire "bote magique". Pour qui connat depuis longtemps les outils de statistique et d'analyse de donnes, ce phnomne peut paratre curieux. On sait depuis longtemps procder des classifications automatiques, construire et exploiter des modles performants, rechercher des corrlations entre variables... On connat mme dans bien des cas l'incertitude attache aux prvisions ralises, ce qui permet de relativiser ou pondrer les prises de dcisions correspondantes (ce dernier point est aussi essentiel que de dterminer les dcisions elles-mmes...). On peut cependant faire aux mthodes "traditionnelles" le reproche de ne pas avoir t vulgarises. Le jargon qu'elles utilisent, les outils mathmatiques (mal connus du grand public) sur lesquels elles s'appuient, les hypothses pralables et validations requises pour une mise en uvre rigoureuse... sont autant de freins un usage rpandu de ces mthodes. Si des outils plus "rcents", comme les rseaux de neurones ou les arbres de dcisions, connaissent un certain succs, ils le doivent leurs performances (dans certains domaines), mais probablement aussi leurs qualits de convivialit, lies une terminologie souvent plus accessible, leur prsentation rsolument "pratique" et l'occultation des mcanismes et algorithmes internes qui les rgissent.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 126

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Pour autant, les problmes de mise en uvre, de comprhension des phnomnes et de validation des rsultats subsistent. Ils sont mme dans une certaine mesure amplifis par la simplicit apparente de ces outils, qui n'incite pas toujours la rigueur. Une synthse positive et optimiste des diffrents outils et courants pourrait consister amliorer la convivialit des mthodes traditionnelles et proposer un cadre mthodologique rendant plus fiable et rigoureuse l'utilisation des outils plus rcents.

1.3 DEFINITION
Le terme de Data Mining signifie littralement forage de donnes. Comme dans tout forage, son but est de pouvoir extraire un lment : la connaissance. Ces concepts sappuient sur le constat quil existe au sein de chaque entreprise des informations caches dans le gisement de donnes. Ils permettent, grce un certain nombre de techniques spcifiques, de faire apparatre des connaissances. Nous appellerons Data Mining l'ensemble des techniques qui permettent de transformer les donnes en connaissances. L'exploration se fait sur l'initiative du systme, par un utilisateur mtier, et son but est de remplir l'une des tches suivantes : classification, estimation, prdiction, regroupement par similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure, l'optimisation.

1.4 LE DATA MINING ET LA RECHERCHE OPERATIONNELLE


La recherche oprationnelle n'est pas assimile aux techniques de Data mining. Son objectif est l'optimisation et la recherche prouve de la meilleure solution, ce qui n'est pas le cas du Data mining : son champ d'application est plus large (voir pages LES TACHES DU DATA MINING SYNTHESE), on ne recherche pas la meilleure solution prouve mais faire le mieux possible, enfin un outil de Data mining appliqu un mme ensemble de donnes ne donne pas toujours les mmes rsultats, contrairement la recherche oprationnelle.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 127

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 STATISTIQUES ET DATA MINING


On pourrait croire que les techniques de data mining viennent en remplacement des statistiques. En fait, il n'en est rien et elles sont omniprsentes. On les utilise : pour faire une analyse pralable, pour estimer ou alimenter les valeurs manquantes, pendant le processus pour valuer la qualit des estimations, aprs le processus pour mesurer les actions entreprises et faire un bilan. Par ailleurs, certaines techniques statistiques rcentes (travaux de BENZECRI, analyse en composantes principales, analyse factorielle des correspondances, ) peuvent tre apparentes aux techniques de data mining. Statistiques et data mining sont tout fait complmentaires.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 128

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1 LA RECHERCHE DE CONNAISSANCES 1.1 LES STATISTIQUES


Les statistiques sont la base de tout raisonnement sur les donnes. Elles permettent de synthtiser un grand nombre de valeurs pour une variable grce un nombre trs rduit dinformations. Pour chaque variable, on va ainsi rechercher au moins deux indicateurs : un pour mesurer la tendance centrale, un pour mesurer la dispersion.

1.1.1 INDICATEURS DE TENDANCE CENTRALE


Cest en gnral le premier critre d'valuation d'une srie statistique. Le plus couramment utilis est la moyenne arithmtique : (N reprsente leffectif total, le centre
1 n ( x i ni ) N i =1
xi

de la classe ou sa valeur,
ni

leffectif de la classe), mais on lui associe ou prfre parfois le

mode (valeur la plus frquemment trouve) ou la mdiane (valeur du reprsentant de la moiti de leffectif). La mdiane prsente lavantage de ne pas tre sensible aux valeurs exceptionnelles (contrairement la moyenne).

1.1.2 INDICATEURS DE DISPERSION


Les indicateurs de tendance centrale donnent une premire indication de la population tudier mais il est intressant de savoir comment se rpartissent les individus autour de cette moyenne. En effet, si deux lves obtiennent les notes suivantes : Elve A : 9 - 10 - 10 - 10 - 10 - 11 Elve B : 0 - 0 - 0 - 20 - 20 - 20 Ces deux lves auront 10 de moyenne mais on voit nettement que llve A obtient des notes autour de la moyenne alors que llve B en est trs loign. Pour exprimer ceci, les statisticiens disposent de nombreux indicateurs permettant de mesurer la dispersion : l'amplitude, ou dimension, ou tendue de la distribution : Valeur sup - Valeur inf l'cart absolu moyen des valeurs la moyenne de la distribution : x x n la distance interquartile ou interdcile de la distribution : cart entre lindividu reprsentant 25 % (ou 10 %) et celui reprsentant 75 % (ou 90%) de la population.
i

Lcart type (

) dfini ainsi :

( xi x)
n

(la majorit des individus est entre moyenne - 2 et moyenne + 2 ). Ces indicateurs sont utiliss pour valuer des valeurs manquantes, mettre en vidence les valeurs exceptionnelles et donner une premire synthse des donnes.
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 129

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.3 RELATIONS ENTRE VARIABLES


Trs vite, les besoins des dcideurs ont amen les statisticiens rechercher des liens entre plusieurs variables ou plusieurs populations. Ils ont donc cr de nouveaux indicateurs comme le khi2, la covariance ou le coefficient de corrlation. La corrlation entre les variables ne recouvre pas que la causalit; elle peut sexpliquer de plusieurs manires : La causalit : on observe quune variation de A entrane une variation de B. Il existe un vrai lien entre A et B. Le hasard : une variation de A entrane une variation de B mais celle-ci est uniquement due au hasard. La rponse commune : une variation de C entrane une variation de A et B. La confusion : la variation de A et C entrane la variation de B.
Tableau 33 : explications d'un fort taux de corrlation.

Lorsque le coefficient de corrlation est significatif, il y a souvent confusion entre ces diffrentes possibilits, surtout entre causalit et hasard. Dautres techniques : rgressions simples ou multiples (linaires ou non), ajustements vers des lois statistiques (loi normale, binomiale, hypergomtrique, de Poisson, ...) permettent de modliser les sries, et facilitent les estimations. Elles ne seront pas dveloppes dans cet ouvrage. Ces techniques statistiques permettent de savoir sil existe une relation entre plusieurs variables, de faire des prvisions ou estimations. Le but de ce type danalyse est souvent de rechercher des liens de causalit La recherche de connaissances par lutilisation de mthodes statistiques est souvent limite car on ne peut tudier simultanment que quelques variables (une deux). Les problmes sont en gnral plus complexes et mettent en uvre plusieurs dizaines de variables. Pour rpondre ces besoins, il a fallu crer de nouveaux algorithmes, parfois issus de la recherche oprationnelle, alliant la recherche intelligente et les statistiques.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 130

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.2 LES SCHEMAS DINFERENCE


Les outils de data mining ne sont pas destins un informaticien ou un statisticien mais lutilisateur ou au dcisionnaire. Seul ce dernier saura analyser avec pertinence les informations retournes par le systme. Pour mieux comprendre le fonctionnement de ces processus, voici les principales techniques de raisonnement mises en uvre. La recherche de connaissances et dinformations repose sur les schmas dinfrence formaliss par C. S. PIERCE en 1903. Ce dernier a distingu trois types de raisonnements : labduction, la dduction et linduction.

1.2.1 LABDUCTION
Pour mieux exprimer ce quest labduction, le plus simple est den prsenter un exemple : Toutes les voitures ont 4 roues La Peugeot 106 a 4 roues
La Peugeot 106 est une voiture

Cette technique est notamment utilise dans les outils daide au diagnostic mdical pour dcouvrir la maladie la plus probable depuis une liste de symptmes. Il faut cependant tre trs vigilant avec ce type de raisonnement car il peut produire des rsultats aberrants ou triviaux : Toutes les voitures ont un moteur, lAirbus 320 a un moteur lAirbus 320 est une voiture. Pour viter ce type de comportement, il suffit davoir un ensemble descriptif (ici : 4 roues) suffisamment riche. Il aurait suffit de prciser : toutes les voitures ont 4 roues, un moteur, un volant, de 3 5 portes, sont inscrites sur les registres des mines, etc... pour diminuer considrablement le risque derreurs. Tous les possesseurs de la carte jeune ont moins de 25 ans. Cette information est certes vraie mais risque de ne prsenter aucun intrt.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 131

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.2.2 LA DEDUCTION
Cest le type de raisonnement le plus utilis et le plus familier. Son atout majeur est quil ne laisse pas de place au doute. Exemple : La Peugeot 106 est une voiture Toutes les voitures ont 4 roues
La Peugeot 106 a 4 roues

1.2.3 LINDUCTION
Cest la technique la plus communment utilise par le data mining. Elle consiste tirer des conclusions partir dune srie de faits. Exemples : Exemple 1 La Clio a 4 roues La Peugeot 106 a 4 roues La Laguna a 4 roues La Corsa a 4 roues
Toutes les voitures ont 4 roues (100 %)

Exemple 2 La Clio a 4 roues La Peugeot 106 a 4 roues La Laguna a 4 roues La Corsa a 4 roues Un patin roulettes a 4 roues Les voitures ont 4 roues (80 %)

Tableau 34 : exemples d'induction.

La certitude nest pas absolue et sera donc associe une probabilit. Plus les faits corroborant lhypothse sont nombreux, plus la probabilit que la conclusion soit exacte est forte.

La recherche dinformations se fait gnralement par des mcanismes dinduction. La dduction est plutt utilise pour vrifier la cohrence des informations.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 132

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 LES TACHES DU DATA MINING


Contrairement aux ides reues, le data mining nest pas le remde miracle capable de rsoudre toutes les difficults ou besoins de lentreprise. Cependant, une multitude de problmes dordre intellectuel, conomique ou commercial peuvent tre regroups, dans leur formalisation, dans lune des tches suivantes : Classification, Estimation, Prdiction, Groupement par similitudes, Segmentation (ou clusterisation), Description, Optimisation. Afin de lever toute ambigut sur des termes qui peuvent paratre similaires, il semble raisonnable de les dfinir.

1.1 LA CLASSIFICATION
La classification se fait naturellement depuis dj bien longtemps pour comprendre et communiquer notre vision du monde (par exemple les espces animales, minrales ou vgtales). La classification consiste examiner des caractristiques dun lment nouvellement prsent afin de laffecter une classe dun ensemble prdfini. [BERRY97] Dans le cadre informatique, les lments sont reprsents par un enregistrement et le rsultat de la classification viendra alimenter un champ supplmentaire. La classification permet de crer des classes dindividus (terme prendre dans son acception statistique). Celles-ci sont discrtes : homme / femme, oui / non, rouge / vert / bleu, ... Les techniques les plus appropries la classification sont : les arbres de dcision, le raisonnement bas sur la mmoire, ventuellement lanalyse des liens.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 133

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 LESTIMATION
Contrairement la classification, le rsultat dune estimation permet dobtenir une variable continue. Celle-ci est obtenue par une ou plusieurs fonctions combinant les donnes en entre. Le rsultat dune estimation permet de procder aux classifications grce un barme. Par exemple, on peut estimer le revenu dun mnage selon divers critres (type de vhicule et nombre, profession ou catgorie socioprofessionnelle, type dhabitation, etc ...). Il sera ensuite possible de dfinir des tranches de revenus pour classifier les individus. Un des intrts de lestimation est de pouvoir ordonner les rsultats pour ne retenir si on le dsire que les n meilleures valeurs. Cette technique sera souvent utilise en marketing, combine dautres, pour proposer des offres aux meilleurs clients potentiels. Enfin, il est facile de mesurer la position dun lment dans sa classe si celui ci a t estim, ce qui peut tre particulirement important pour les cas limitrophes. La technique la plus approprie lestimation est : les rseaux de neurones.

1.1 LA PREDICTION
La prdiction ressemble la classification et lestimation mais dans une chelle temporelle diffrente. Tout comme les tches prcdentes, elle sappuie sur le pass et le prsent mais son rsultat se situe dans un futur gnralement prcis. La seule mthode pour mesurer la qualit de la prdiction est dattendre ! Les techniques les plus appropries la prdiction sont : Lanalyse du panier de la mnagre Le raisonnement bas sur la mmoire Les arbres de dcision les rseaux de neurones

1.1 LE REGROUPEMENT PAR SIMILITUDES


Le regroupement par similitudes consiste grouper les lments qui vont naturellement ensembles. La technique la plus approprie au regroupement par similitudes est : Lanalyse du panier de la mnagre

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 134

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 LANALYSE DES CLUSTERS


Lanalyse des clusters consiste segmenter une population htrogne en sous-populations homognes. Contrairement la classification, les sous populations ne sont pas prtablies. La technique la plus approprie la clusterisation est : Lanalyse des clusters

1.1 LA DESCRIPTION
Cest souvent lune des premires tches demandes un outil de data mining. On lui demande de dcrire les donnes dune base complexe. Cela engendre souvent une exploitation supplmentaire en vue de fournir des explications. La technique la plus approprie la description est : Lanalyse du panier de la mnagre

1.1 LOPTIMISATION
Pour rsoudre de nombreux problmes, il est courant pour chaque solution potentielle dy associer une fonction dvaluation. Le but de loptimisation est de maximiser ou minimiser cette fonction. Quelques spcialistes considrent que ce type de problme ne relve pas du data mining. La technique la plus approprie loptimisation est : Les rseaux de neurones

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 135

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 ILLUSTRATION DES TACHES DU DATA MINING


Prenons une base de donnes simple de suivi des militaires, du point de vue carrire et affectations, tablie selon le modle suivant :

Figure 17 : modle informatique de la base de donnes militaires

Nous retrouvons les fichiers militaires, affectations, garnisons, et carrires. Sur cet exemple, voyons comment utiliser chaque tche du data mining. Nous supposons que le travail de prparation des donnes est fait.
La classification

Dterminer le grade en fonction du sexe, de l'ge, l'anciennet, le salaire et les affectations. Dterminer le sexe en fonction de l'ge, l'anciennet, le salaire et les affectations.
Lestimation

L'estimation se fait sur des variables continues : Estimer l'ge en fonction du grade, sexe, anciennet et affectations Estimer le salaire en fonction de l'ge, sexe, anciennet et affectations
La prdiction

Dans cet exemple, nous pouvons prdire par exemple quelle sera la prochaine affectation d'un militaire.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 136

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Le regroupement par similitudes

En utilisant cette technique, nous pouvons dterminer des rgles de type : le militaire qui est sergent entre 25 et 30 ans sera lieutenant colonel entre 45 et 50 ans (fiabilit de n %).
La segmentation (ou clusterisation)

Nous pouvons essayer de segmenter les militaires en fonction de leurs parcours (suivi de la carrire) et affectations.
La description

Dans cet exemple, la description se fera surtout autour des indicateurs statistiques traditionnels : ge moyen, pourcentage de femmes, salaire moyen
Loptimisation

L'exemple qui suit est fictif : Compte tenu des effectifs ncessaires dans chaque grade pour chaque garnison et connaissant les contraintes: on ne peut revenir dans une garnison qu'au moins 5 ans aprs en tre sorti, un militaire doit changer d'affectation au moins tous les 3 ans, comment affecter au mieux les militaires l'anne prochaine ?

1.2 SYNTHESE

Les sept tches du data mining sont : La classification, Lestimation, La prdiction, Le regroupement par similitudes, La segmentation (ou clusterisation), La description, Loptimisation.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 137

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 LE CERCLE VERTUEUX
On ne met pas en uvre une technique de data mining pour faire une simple exploration. Il faut l'inscrire dans un contexte plus global, appel le cercle vertueux. Celui-ci est compos de quatre tapes : Identifier le domaine d'tude Prparer les donnes Agir sur la base de donnes Evaluer les actions La premire tape consiste identifier le domaine d'tude. Il faut rpondre aux questions : de quoi parlons nous et que voulons nous faire ? A ce stade, on dfinit un objectif gnral. Lorsque le domaine est dlimit, il faut recenser les donnes relatives au domaine, puis les regrouper pour en faciliter l'exploration. Nous parlons de regroupement logique, ce qui inclus le client / serveur, mme si ce n'est pas recommand. La troisime tape consiste mettre en uvre une ou plusieurs techniques de data mining pour une premire analyse. Aprs valuation et tude des rsultats, des actions sont mises en uvre. La dernire tape consistera valuer ces actions, et par-l mme la performance du data mining, voire le retour sur investissements. L'achvement du premier cycle dbouche souvent sur l'expression de nouveaux objectifs affins, ce qui nous ramne la premire tape

Tableau 35 : le cercle vertueux du data mining

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 138

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1 METHODOLOGIE DE DATA MINING


Le data mining sinscrit dans une approche plus large de recherche en 4 tapes : Poser et formaliser le problme (ou ltude) le data mining mise en uvre de solutions ou dactions valuation Pour mener bien une action de data mining, il existe deux possibilits mthodologiques : le test dhypothse et/ou la dcouverte de connaissances (dirige ou non).

1.1 LE TEST DHYPOTHESES


Il s'agit d'une approche descendante : cette technique consiste mettre des hypothses, soit issues dune analyse pralable de type statistique, soit en fonction de lexprience ou limagination de chacun. Chaque hypothse doit tre valide par les donnes existantes, ventuellement par des tudes menes en parallle.

1.1.1 PROCESSUS DU TEST D'HYPOTHESE


La mthode du test d'hypothse se droule ainsi : Gnrer de bonnes ides Dterminer quelles donnes permettront de tester ces ides Localiser les donnes Prparer les donnes pour l'analyse Construire des modles informatiques Evaluer les modles informatiques

1.1.1.1 GNRER DE BONNES IDES


C'est le travail de base du processus. Il est souhaitable de runir les diffrents reprsentants des secteurs de l'entreprise, ce qui permet chacun de ragir aux ides des autres en fonction de son niveau d'expertise. Gnralement les problmes ne sont vus que du seul point de vue d'un indicateur qui reprsente souvent un objectif atteindre. On demandera par exemple un commercial d'atteindre un certain volume de vente ou de chiffre d'affaires mais plus rarement de rpondre des questions comme "quelle est la dure de vie active des clients ?" ou "quelle est la dpense globale des clients au cours de leur relation avec l'entreprise et comment volue-t-elle ?", etc... Le travail en groupes doit permettre l'entreprise de se poser de nouvelles questions pour gnrer de bonnes ides.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 139

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.2 DTERMINER LES DONNES POUR TESTER LES IDES


Lorsque les hypothses sont poses, il faut dterminer quelles donnes vont permettre de valider ou d'invalider ces hypothses. Par exemple, une banque souhaitait savoir les motifs de clture des comptes. Une runion de brainstorming a permis de dterminer des causes possibles de clture de compte, non lies la politique de la banque (ce qui exclut les clients mcontents aprs une hausse de tarifs, ...) : Cause Le client est mort. Symptme Les transactions cessent.

Le client a dmnag dans une ville o la Utilisation accrue des distributeurs banque n'a pas d'agence. automatiques et localisation diffrente de ces distributeurs. Le client s'est mari; le conjoint restant fidle Rduction du solde et du nombre des son ancienne banque ils y ont maintenant transactions, demande de changement de un compte joint. nom (si c'est une cliente). Le client a chang de travail et n'est plus Arrt des versements mensuels. pay par virement. Le client a chang de travail et il existe une La plupart des transactions au distributeur agence d'une autre banque trs proche de son automatique se passent un autre endroit, qui bureau. appartient une banque diffrente.
Tableau 36 : causes possibles de clture d'un compte bancaire.

A partir de cette analyse, il est devenu ais de dterminer les donnes utiles pour permettre de valider chacune des hypothses.

1.1.1.3 LOCALISER LES DONNES


Les techniques de data mining sont consommatrices de gros volumes de donnes. Idalement, celles-ci se trouvent toutes prsentes dans l'entreprise. Ceci est rarement le cas car il est frquent d'avoir recours des donnes externes : indices socio-dmographiques, enqutes de consommation, indicateurs conomiques, etc... De plus, les donnes prsentes dans l'entreprise sont souvent dissmines dans les divers systmes existants : applications bureautique, donnes issues de la production, donnes provenant de systmes de mesure ou autres systmes lectroniques, ...

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 140

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.4 PRPARER LES DONNES POUR L'ANALYSE


Les donnes brutes sont rarement directement exploitables pour une opration de data mining. Elles sont souvent issues de systmes dont la vocation est la production et ncessitent des adaptations, voire des transformations : codages, calculs, cration de donnes combines calcules. Plusieurs problmes se posent : Dfinir le bon niveau de rsum, Les architectures informatiques incompatibles, Le codage incohrent des donnes, Les donnes textuelles, Les valeurs manquantes. 1.1.1.1.1 Dfinir le bon niveau de rsum Quel est le bon niveau de dtail ? Il faut dfinir le bon niveau de dtail en fonction du problme pos. Les donnes non rsumes risquent d'tre trop fines et occuper un espace disque important. Le risque est alors grand pour que l'on utilise une fonction de regroupement (fonction GROUP BY en SQL) pour faciliter l'exploitation. Dans ce cas, il est prfrable de rsumer ds le dpart les donnes mais le risque est de trop rsumer et de manquer ds le dpart une notion qui pourrait tre importante pour l'analyse. Le codage permet galement de rsumer un ou plusieurs champs. Par exemple, sur une tude dmographique, il est intressant de codifier l'adresse pour faire ressortir le dpartement (ce qui permet de codifier la rgion), la zone d'habitation (urbaine, priurbaine, campagne, ), etc 1.1.1.1.2 Les architectures informatiques incompatibles Les ordinateurs ne possdent pas tous le mme systme d'exploitation ni systme de codage (EBCDIC, ASCII, ).De mme, les formats de donnes numriques peuvent tre diffrents d'un systme l'autre. Il sera souvent prfrable d'importer les donnes dans un systme unique (le data warehouse), ce qui vite ce type de problme. Sinon, il faut prvoir des outils pour faire le transcodage. 1.1.1.1.3 Le codage incohrent des donnes Ce type de problme se trouve accentu lorsque les donnes proviennent de sources multiples. Il faudra toujours, surtout si les donnes sont htrognes, s'assurer qu'un mme code est interprt de la mme manire. Dans le cas contraire, il faut homogniser les codages soit en crant un nouveau codage, soit en utilisant l'un de ceux utiliss comme rfrence.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 141

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.4 Les donnes textuelles Les donnes textuelles (champs au format texte) posent beaucoup de problmes et sont souvent non utilises. Il est trs difficile d'extraire d'un champ texte une donne, sauf ci le champ correspond un codage connu ou s'il est trs contraint (code postal, numro de scurit sociale ou de plaque d'immatriculation de vhicule,). La mthode de codage la plus simple et la plus utilise consiste crer un tableau de transcodage avec un champ contenant une valeur possible et le rsultat cod. On pourra ainsi transformer les diffrentes orthographes possibles d'une commune (avec toutes les formes d'abrviations imaginables) pour ressortir le code postal ou rechercher dans un texte d'adresse les mots : Angleterre, Ecosse, Irlande, Pays de galles, et y associer un code pays. Il faut noter cependant que depuis quelques mois apparaissent des outils de text mining qui facilitent ces tches. 1.1.1.1.5 Les valeurs manquantes Ce type de problme est frquent et bien connu des enquteurs et statisticiens : que faire des valeurs manquantes ? Il existe quatre possibilits : supprimer la colonne, ne pas prendre en compte la ligne, codifier la donne pour la signaler manquante, valuer cette valeur. Les deux premires solutions sont viter car elles nous privent de donnes qui pourraient tre trs importantes. Reprer les donnes manquantes est une possibilit intressante car ces absences peuvent tre significatives d'une population ou d'un comportement. Habituellement la dernire solution est retenue. De nombreuses techniques statistiques et de data mining permettent de faire des estimations fiables. Quoi qu'il en soit, les valeurs manquantes mritent une attention particulire, surtout si elles sont nombreuses. Dans ce dernier cas, les estimations ne seront pas fiables et les rsultats de l'analyse par les techniques de data mining seront fausses !

1.1.1.1 CONSTRUIRE DES MODLES INFORMATIQUES


Si l'on adopte la dmarche du test d'hypothses, on commence avec un modle mental. Il va falloir formaliser le problme en vue de le transformer en modles informatiques. Une hypothse comme "les familles avec des enfants en ge de frquenter l'enseignement suprieur rpondent plus favorablement tel type d'offre" doit tre traduit dans un modle informatique avant d'tre teste sur des donnes relles.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 142

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.2 EVALUER LES MODLES INFORMATIQUES


C'est la dernire tape : il s'agit d'appliquer le modle informatique aux donnes relles pour voir comment les hypothses se vrifient. Mme si nous posons une question qui parat demander la rponse oui ou non comme "est-ce que les femmes rpondent mieux telle offre commerciale ?", les rsultats devront tre valus et interprts : comment quantifier la diffrence ? Est-elle significative ? Si oui, faut-il concevoir deux offres diffrentes ? Les hommes reprsentent-ils une part importante pour ce march ? L'exploitation correcte des rsultats de l'exploitation des donnes demande en mme temps des connaissances analytiques et spcifiques au domaine. Si personne ne possde toutes ces connaissances la fois, il faudra une coopration entre les divers spcialistes.

1.1.2 SYNTHESE
Pour mettre en uvre une mthode de data mining dans le cadre du test d'hypothse, la mthodologie est la suivante :

Gnrer de bonnes ides Dterminer quelles donnes permettront de tester ces ides Localiser les donnes Prparer les donnes pour l'analyse. Construire des modles informatiques Evaluer les modles informatiques

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 143

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.2 LA DECOUVERTE DE CONNAISSANCES


Il s'agit d'une approche ascendante : cette technique consiste partir des donnes pour tenter d'en extraire une information pertinente et inconnue. La dcouverte de connaissances est lapproche du data mining la plus significative et la plus souvent mise en avant. Les logiciels de data mining vont utiliser les techniques statistiques et de raisonnement examines prcdemment, en y associant dautres techniques (prsentes plus loin). On distinguera la dcouverte de connaissances dirige et non dirige. La dcouverte de connaissances non dirige sert reconnatre les relations exprimes par les donnes tandis que la dcouverte dirige permet d'expliquer ces relations une fois qu'elles ont t trouves.

1.2.1 LA DECOUVERTE DE CONNAISSANCES NON DIRIGEE


Cette technique est galement appele apprentissage sans supervision. Historiquement, ctait la vocation des logiciels de data mining. On fournit au logiciel une base de donnes et celui-ci recherche des structures significatives et retourne un ensemble de connaissances. Celles-ci sont gnralement exprimes sous forme de rgles, du type : Si achat de riz ET de vin blanc, alors achat de poisson A chaque rgle est associ un indicateur de confiance (ici : nombre de personnes ayant achet riz, vin blanc et poisson divis par le nombre de personnes ayant achet riz et vin blanc) qui permet de quantifier la fiabilit de la rgle. Une valeur de 0.84 signifie que 84 % des gens qui ont achet du riz et du vin blanc ont achet du poisson. Ce critre nest pas suffisant car il faut en outre que leffectif soit significatif. En effet, si une rgle ne concerne quun ou deux individus mme avec 100 % de confiance, elle devra tre rejete car non suffisamment significative. Les rgles dassociation peuvent galement se drouler dans le temps : telle action un instant t entranera tel rsultat un autre instant. Il faut alors possder suffisamment de donnes historises pour avoir une bonne fiabilit des rsultats. La technique qui consiste prvoir le comportement dune variable dans le temps en fonction du pass sappelle le forecasting .

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 144

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.2.1.1 METHODOLOGIE DE DECOUVERTE NON DIRIGEE


La dcouverte de connaissances non dirige se droule en suivant les tapes suivantes : Identifier les sources de donnes disponibles Prparer les donnes pour l'analyse Construire et instruire le programme informatique Evaluer le modle informatique Appliquer le modle informatique de nouvelles donnes Identifier les cibles potentielles pour la dcouverte de connaissances dirige Gnrer de nouvelles hypothses tester 1.1.1.1.1 Identifier les sources de donnes disponibles Les processus de dcouvertes de connaissances sont bass sur le fait que la connaissance ou la rponse aux questions que l'on se pose se trouve dans les donnes. Par consquent, la qualit des donnes est la premire exigence de ce type d'analyse. L'idal est de travailler partir des donnes archives dans l'entreprise. Mais celles-ci sont prvues gnralement pour la production, avec des formats adapts aux meilleurs temps de rponse, voire mme conservs sur des bandes magntiques. Il va donc falloir identifier les donnes, les localiser, identifier les formats et codages, Un travail organisationnel et logistique important est ncessaire pour disposer des donnes sous une forme utile en vue de la dcouverte de connaissances. 1.1.1.1.2 Prparer les donnes pour l'analyse Aprs le travail de reprage et d'identification dcrit dans l'tape prcdente, il faut prparer les donnes pour l'analyse. Cette tape est de loin la plus importante car la qualit des rsultats obtenus est trs fortement lie la qualit de cette prparation. On distinguera plusieurs tapes dans cette prparation : regrouper les donnes et les transformer distribuer les donnes

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 145

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.1.1 Regrouper les donnes et les transformer

C'est la premire tape qui consiste regrouper, rapatrier, transcoder, transformer les donnes. Il faut faire face aux incompatibilits entre les diffrents systmes informatiques de l'entreprise, importer les donnes externes, regrouper l'ensemble dans un format propice l'exploitation par une application de data mining. Parfois, on souhaitera agrger les donnes ou les regrouper. Enfin, il est souvent utile de rajouter des champs supplmentaires, issus de rsultats de calculs ou transformations depuis des champs existants. Ceci est particulirement vrai si l'on cherche des relations entre champs ou pour suivre des volutions dans le temps. A titre d'exemple, on pourrait citer : Index d'obsit = taille / poids Ecart de solde = solde prcdent - solde actuel Densit = population / surface Taux de transport = nombre de passagers * nombre de kilomtres Ces travaux sont prvus voire automatiss dans le cadre de la mise en uvre d'un data warehouse.
1.1.1.1.1.1 Distribuer les donnes

Une fois les donnes obtenues, il va falloir les distribuer en trois parties : Ensemble d'apprentissage Ensemble de test Ensemble d'valuation Ces trois ensembles devront tre distincts (n'avoir aucun enregistrement en commun). L'ensemble d'apprentissage est utilis pour construire le modle initial. C'est depuis cet ensemble que le systme va calculer ses diffrents paramtres. Une fois les paramtres calculs, il faut vrifier comment ils se comportent sur l'ensemble de test. Celui-ci va permettre d'ajuster les valeurs trouves l'tape prcdente et les rendre moins sensibles l'ensemble d'apprentissage. Enfin, les paramtres seront tests sur l'ensemble d'valuation. Si les rsultats obtenus sont proches de ceux attendus, on pourra alors valider le systme. Dans le cas contraire, il faudra analyser les raisons de cette diffrence. Pour mesurer la validit des rsultats obtenus, on utilisera les outils statistiques traditionnels (le khi2 par exemple).

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 146

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Comment construire ces ensembles ? Il n'existe pas de rponse simple cette question. Dans certains cas, on utilisera les mthodes statistiques d'chantillonnage pour constituer ces ensembles. Cependant, surtout si l'on se trouve dans un contexte de data warehouse, il est prfrable de prendre de grands volumes (au moins 10 000 enregistrements) pour tre sr que statistiquement l'ensemble est reprsentatif (loi de la probabilit forte des grands nombres). Il faut cependant respecter quelques rgles : Dans une analyse statistique traditionnelle, il est frquent de choisir les variables analyser pour tenter par exemple de dterminer la corrlation de l'une par rapport une autre. De mme, on supprime souvent certains champs trop complexes ou insuffisamment aliments (valeurs absentes). Dans une approche de data mining, il est prfrable de soumettre l'ensemble des donnes et laisser l'outil dterminer lui-mme les donnes utiles car les champs absents ou complexes peuvent dboucher sur des connaissances importantes ! Enfin, il faut tre vigilant dans la constitution des ensembles. Il faut se rappeler en permanence que leur but n'est pas d'tre reprsentatifs de la population d'origine mais qu'il s'agit d'un ensemble d'apprentissage. C'est partir de ces donnes que le systme va se crer ses rgles et paramtres. Il est donc souvent utile de surdimensionner certains ensembles utiles l'apprentissage. Par exemple, une entreprise pourrait s'intresser aux clients susceptibles de rpondre favorablement une offre commerciale. Supposons que dans les donnes historiques de l'entreprise seul 1 % des clients aient rpondu favorablement cette offre. Il sera souhaitable d'augmenter significativement (au moins 10 %) cette population pour que le logiciel d'exploitation puisse identifier facilement cette population et reconnatre parmi les nouveaux clients ceux qui sont susceptibles d'tre intresss par cette offre. On procdera de la mme manire pour mettre en vidence toute population prsentant un profil intressant pour l'entreprise : recherche de bons ou mauvais clients, de fraudeurs, etc 1.1.1.1.2 Construire et instruire le programme informatique Dans cette tape se ralisent les premires oprations d'analyse de donnes (terme considrer dans son acception statistique). Il s'agit de rechercher la ou les techniques mettre en uvre et raliser / mettre en uvre le programme.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 147

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.3 Evaluer le modle informatique La plus grande difficult est de dterminer le volume d'apprentissage optimal. Pour ce faire, il faut tester les donnes connues et inconnues. Si les donnes connues sont trop importantes, on risque de trouver des paramtres d'estimation trs prcis sur cette population mais qui donneront des valeurs trs mdiocres sur une population inconnue. Le rsultat sera similaire si le volume d'apprentissage est trop faible. Il faut donc trouver un compromis, comme illustr sur la figure qui suit.

Graphique 2 : dterminer le volume optimal d'apprentissage

1.1.1.1.4 Appliquer le modle informatique de nouvelles donnes Lorsque le modle ou l'apprentissage est effectu, il faut l'appliquer de nouvelles donnes. Cette tape permet au systme d'appliquer ses connaissances a ces donnes. 1.1.1.1.5 Identifier les cibles potentielles pour la dcouverte de connaissances dirige Dans la suite logique de l'tape prcdente, l'utilisateur va exploiter les conclusions et connaissances. Cela dbouche sur de nouvelles interrogations qui se traduisent gnralement par une approche de dcouverte de connaissances dirige.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 148

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1.1.6 Gnrer de nouvelles hypothses tester C'est la dernire tape : les nouvelles connaissances gnres aux tapes prcdentes permettent de gnrer de nouvelles hypothse, qu'il faut retravailler. Nous entrons ici dans le cadre du test d'hypothses.

1.1.1.2 SYNTHESE
Dans un processus de dcouverte de connaissances non dirige, il faut : Identifier les sources de donnes prclasses Prparer les donnes pour l'analyse Construire et instruire le programme informatique Evaluer le modle informatique Appliquer le modle informatique de nouvelles donnes Identifier les cibles potentielles pour la dcouverte de connaissances dirige Gnrer de nouvelles hypothses tester

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 149

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.2 LA DECOUVERTE DE CONNAISSANCES DIRIGEE


C'est le type d'analyse le plus utilis. La dcouverte de connaissances dirige consiste expliquer un (ou plusieurs) champ en fonctions dun ou plusieurs autres. Le champ cible est spcifi par lutilisateur. La connaissance extraite peut tre une fonction du temps : un vnement du pass explique une valeur actuelle.

1.1.2.1 METHODOLOGIE
Au niveau mthodologique, le principe est le mme que pour la dcouverte de connaissances non dirige. La seule diffrence est que dans le cas prcdent, les connaissances gnres dbouchent soit vers un test d'hypothse, soit vers un processus de dcouverte de connaissances diriges. Pour mmoire (voir explications au chapitre prcdent), voici les tapes raliser : Identifier les sources de donnes prclasses Prparer les donnes pour l'analyse Construire et instruire le programme informatique Evaluer le modle informatique

1.1.1.1 SYNTHESE
Dans un processus de dcouverte de connaissances dirige, il faut : Identifier les sources de donnes prclasses Prparer les donnes pour l'analyse Construire et instruire le programme informatique Evaluer le modle informatique

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 150

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 L'EVALUATION
On a souvent tendance ngliger ou sous estimer les problmes d'valuation. L'entreprise qui entreprend une dmarche de data mining, surtout si elle est associe la mise en uvre d'un data warehouse, engage des dpenses trs importantes et attend par consquent un retour d'investissement. Pour assurer la rentabilit finale d'un projet, il va falloir en mesurer l'efficacit tout au long du processus. Chaque modle, chaque rgle doit tre valu, valid. Une technique d'valuation consiste tablir le rapport du rsultat obtenu sur une population cible (depuis un outil de data mining) par celui qui aurait t obtenu sur la population totale. Ce rapport s'appelle taux de support ou taux de surconcentration. En fait, il mesure l'amlioration. Mais ce rapport doit tre pris avec prcaution car il ne tient pas compte de l'effectif de chaque classe : si l'on obtient un taux trs lev sur une population de trois ou quatre individus statistique, la rgle perd tout son attrait alors qu'une autre rgle avec un taux trs faible peut avoir un impact bien plus important. De nombreuses techniques de data mining possdent leurs propres rgles d'valuation. A celles-ci, nous pouvons ajouter les outils statistiques traditionnels : calculs de moyennes, carts types, Khi2, ratios de gestion, etc mais le problme de l'valuation est plus complexe qu'il ne semble. Pour illustrer ces propos, voici quelques exemples : Si une rgle permet d'esprer un gain de clientle de 5% et un gain de bnfice de 1% mais qu'un autre rgle permet un gain de clientle de 1% avec un gain de bnfice de 2%, laquelle sera la meilleure ? Si nous rajoutons les cots lis la mise en uvre des solutions trouves, quelle est la meilleure solution ? Il n'y a pas de rponse priori pour ces problmes stratgiques. La manire la plus sage de raisonner en terme de data mining est de dfinir prcisment au pralable l'objectif de l'analyse. L'valuation en sera d'autant plus aise. Un objectif est prcis, chiffr et situ dans le temps. On saura si l'objectif est atteint que si ce dernier est pos. Ceci parat vident mais l'exprience montre que c'est loin d'tre toujours le cas ! Idalement, les outils ou critres de l'valuation finale sont dfinis en mme temps que l'objectif. L'valuation doit tre prsente tout au long de la dmarche de data mining !

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 151

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1 PRESENTATION RAPIDE DES TECHNIQUES 1.1 ANALYSE DU PANIER DE LA MENAGERE


L'analyse du panier de la mnagre est un moyen de trouver les groupes d'articles qui vont ensembles lors d'une transaction. C'est une technique de dcouverte de connaissances non dirige (de type analyse de clusters) qui gnre des rgles et supporte l'analyse des sries temporelles (si les transactions ne sont pas anonymes). Les rgles gnres sont simples, faciles comprendre et assorties d'une probabilit, ce qui en fait un outil agrable et directement exploitable par l'utilisateur mtier. Exemple : Le client qui achte de la peinture achte un pinceau Le client qui achte un tlviseur achte un magntoscope sous 5 ans.

1.2 LE RAISONNEMENT BASE SUR LA MEMOIRE


Le raisonnement bas sur la mmoire (RBM) est une technique de prdiction et de classification utilise dans le cadre de la dcouverte de connaissances dirige. Elle peut tre galement utilise pour l'estimation. Pour chaque nouvelle instance prsente, le systme recherche le(s) voisin(s) le(s) plus proche(s) et procde ainsi l'affectation ou estimation. L'avantage du RBM est qu'il est facile mettre en uvre, trs stable (les nouvelles donnes n'entranent pas de refaire fonctionner un systme de calcul) et supporte tout type de donnes.

1.3 LA DETECTION AUTOMATIQUE DE CLUSTERS


La dtection automatique de clusters est une technique de dcouverte de connaissances non dirige (ou apprentissage sans supervision). Elle consiste regrouper les enregistrements en fonction de leurs similitudes. Chaque groupe reprsente un cluster. C'est une excellente technique pour dmarrer un projet d'analyse ou de data mining. Les groupes de similitudes permettront de mieux comprendre les donnes et d'imaginer comment les utiliser au mieux.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 152

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.4 L'ANALYSE DES LIENS


L'analyse des liens est une technique de description qui s'inspire et repose sur la thorie des graphes. Elle consiste relier des entits entre elles (clients, entreprises, ) par des liens. A chaque lien est affect un poids, dfini par l'analyse, qui quantifie la force de cette relation. Cette technique peut tre utilise pour la prdiction ou la classification mais gnralement une simple observation du graphe permet de mener bien l'analyse.

1.5 LES ARBRES DE DECISION


Les arbres de dcision sont utiliss dans le cadre de la dcouverte de connaissances dirige. Ce sont des outils trs puissants principalement utiliss pour la classification, la description ou l'estimation. Le principe de fonctionnement est le suivant : pour expliquer une variable, le systme recherche le critre le plus dterminant et dcoupe la population en sous populations possdant la mme entit de ce critre. Chaque sous population est ensuite analyse comme la population initiale. Le modle rendu est facile comprendre et les rgles trouves sont trs explicites. Ce systme est donc trs apprci.

1.6 LES RESEAUX DE NEURONES


Les rseaux de neurones reprsentent la technique de data mining la plus utilise. Pour certains utilisateurs, elle en est mme synonyme. C'est une transposition simplifie des neurones du cerveau humain. Dans leur variante la plus courante, les rseaux de neurones apprennent sur une population d'origine puis sont capables d'exprimer des rsultats sur des donnes inconnues. Ils sont utiliss dans la prdiction et la classification dans le cadre de dcouverte de connaissances dirige. Certaines variantes permettent l'exploration des sries temporelles et des analyses non diriges (rseaux de Kohonen). Le champ d'application est trs vaste et l'offre logicielle importante. Cependant, on leur reproche souvent d'tre une "boite noire" : il est difficile de savoir comment les rsultats sont produits, ce qui rend les explications dlicates, mme si les rsultats sont bons.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 153

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.7 LES ALGORITHMES GENETIQUES


Les algorithmes gntiques sont utiliss dans la dcouverte de connaissances dirige. Ils permettent de rsoudre des problmes divers, notamment d'optimisation, d'affectation ou de prdiction. Leur fonctionnement s'apparente celui du gnome humain. Le principe de fonctionnement est le suivant : les donnes sont converties en chanes binaires (comme les chanes d'ADN - acide dsoxyribo nuclique-). Celles-ci se combinent par slection, croisement ou mutation et donnent ainsi une nouvelle chane qui est value. En fonction du rsultat, les chanes les plus faibles cdent leur place aux plus fortes. Cette technique est particulirement intressante pour rsoudre des problmes d'affectation ou des problmes sur lesquels on peut poser une fonction d'valuation car elle peut trouver des solutions optimises parfois inexistantes dans les donnes d'origine.

1.8 LES AGENTS INTELLIGENTS OU KNOWBOT


Les agents intelligents ou Knowbot sont des entits logicielles autonomes dont les plus rcentes versions s'intgrent tout fait dans le processus de data mining. Certains iront jusqu' les considrer comme des outils de data mining. Certains d'entre eux, les plus labors, sont capables de suivre et mmoriser les mouvements, visites et achats sur Internet et permettent d'laborer des profils d'utilisateurs pour leur faire des offres commerciales "un un (one to one) ". L'utilisateur peut, quant lui, lancer des appels d'offres et mises en concurrence automatiquement grs par ces agents.

1.9 LE TRAITEMENT ANALYTIQUE EN LIGNE (TAEL)


Pour terminer ce tour d'horizon, nous voquerons ici le TAEL (traitement analytique en ligne) car bien que ne faisant pas partie du data mining, il s'agit d'outils d'analyse de donnes souvent utiles en pralable au data mining. Le TAEL est une manire de prsenter aux utilisateurs les donnes relationnelles afin de faciliter la comprhension des donnes et des formes importantes qu'elles reclent. Ces outils s'appuient sur OLAP, ROLAP, et MOLAP.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 154

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 ANALYSE DU PANIER DE LA MENAGERE 2.1 PRESENTATION


Appele galement recherche d'associations, l'analyse du panier de la mnagre (APM) est un processus de dcouverte de connaissances non dirige. Cette technique permet, comme l'indique son nom, d'tudier quels articles ont tendance tre achets ensembles et lesquels seront le mieux adapts pour mettre en uvre des techniques commerciales. Bien qu'elle soit issue du secteur de la distribution, on peut nanmoins appliquer cette technique ds lors que plusieurs actions sont effectues par un mme individu. Le systme gnre des rgles d'association de forme "Si action1 ou condition alors action2". Elles peuvent se situer dans le temps : "Si action1 ou condition l'instant t1 alors action2 l'instant t2". Enfin elles sont assorties d'une mtrique de confiance. Exemples de rgles : Si achat de riz et de vin blanc, alors achat de poisson (84%) Si maladie X et traitement Y alors gurison (97%) Si maladie X et traitement Y alors gurison dans Z annes (97%) Si achat de tlviseur alors achat de magntoscope dans les 5 ans (45%) Si condition1 et condition2 alors fraudeur (62%) Si prsence et travail alors russite l'examen (99,9%)

2.2 UTILISATION
L'analyse du panier de la mnagre est utilise pour dcouvrir des rgles d'association et son but principal est donc descriptif. Dans la mesure ou les rsultats peuvent tre situs dans le temps, cette technique peut tre considre comme prdictive. On utilise souvent cette technique comme point de dpart d'une analyse car les rgles exprimes sont claires et explicites pour l'utilisateur mtier. Lorsqu'une rgle est identifie comme intressante exploiter, on se tourne alors vers un processus de test d'hypothses ou de dcouverte dirige pour mieux explorer les donnes, mais en faisant appel d'autres techniques.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 155

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.3 FONCTIONNEMENT 2.3.1 CONSTRUIRE LE TABLEAU DES COOCCURRENCES


Pour mieux comprendre le fonctionnement de cette technique, prenons un exemple. Dans un supermarch, plusieurs clients font des achats. Ceux ci sont retranscrits sur des tickets de caisse. A partir de ces tickets nous obtenons une liste d'articles achets par client, dont on dresse une liste rcapitulative. Enfin on tablit le tableau des cooccurrences, construit en mettant chaque article en ligne et en colonne puis en indiquant l'intersection le nombre de clients ayant achet les deux en mme temps :

Jus d'orange Eau Total : xxx Frs

Lait Jus d'orange Nettoyant vitres Total : xxx Frs

Jus d'orange Dtergent Total : xxx Frs

CLIENT 1 2 3 4 5

ARTICLES ACHETES Jus d'orange, eau minrale Lait, jus d'orange, nettoyant vitres Jus d'orange, dtergent Jus d'orange, dtergent, eau minrale Nettoyant vitres, eau minrale

Tableau 37 : liste des achats par client pour l'analyse du panier de la mnagre.

Jus d'orange Jus d'orange Nettoyant vitres Lait Eau minrale Dtergent 4 1 1 2 1

Nettoyant vitres 1 2 1 1 0

Lait 1 1 1 0 0

Eau minrale 2 1 0 3 1

Dtergent 1 0 0 1 2

Tableau 38 : tableau des cooccurrences

Il est possible de crer un tableau non plus deux dimensions mais n. On indiquera alors le nombre d'occurrences pour chaque n-upplet. Mais au-del de deux, on perd en lisibilit et
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 156

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

surtout le tableau crot de manire exponentielle (un tableau de dimension n pour p articles p ncessite d'alimenter n cellules), ce qui gnre beaucoup de matrices creuses. Nous dconseillons ces tableaux, d'autant que l'intrt pour l'exploitation est limit.

2.3.2 LIRE ET INTERPRTER LE TABLEAU


Jus d'orange Nettoyant vitres Lait Eau minrale Dtergent Jus d'orange 4 1 1 2 1 Nettoyant vitres 1 2 1 1 0 Lait 1 1 1 0 0 Eau minrale 2 1 0 3 1 Dtergent 1 0 0 1 2

Tableau 39 : rappel du tableau des cooccurrences

Ds que le tableau des cooccurrences est tabli, une premire lecture simple permet d'obtenir les premiers renseignements : Une lecture sur la diagonale (fond jaune) permet de connatre le nombre d'units vendues de chaque article, L'article le plus vendu est le jus d'oranges, Le jus d'oranges et l'eau minrale sont plus vendus ensembles que tout autre couple d'articles, Le lait n'est jamais achet en mme temps que l'eau minrale ou le dtergent, Le dtergent n'est jamais achet en mme temps que le nettoyant vitres ou le dtergent.

1.1 LES REGLES 1.1.1 GNRER DES RGLES


La lecture du tableau (ou son traitement informatique) permet de gnrer les premires rgles. Il suffit de chercher les valeurs les plus leves, non situes sur la diagonale pour formuler les rgles du type : si achat <produit en ligne>, alors achat <produit en colonne>. Dans notre exemple, on pourra dire : Si un client achte du jus d'orange, alors il achtera de l'eau. Mais ces rgles ne signifient que peu de choses si on ne leur associe pas une mtrique de probabilit ou d'esprance. Pour l'analyse du panier de la mnagre, cette mtrique s'appelle le niveau de confiance. On utilise galement les statistiques.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 157

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1 TYPOLOGIE DES RGLES


L'analyse du panier de la mnagre gnre trois types de rgles : utiles, triviales, ou inexplicables.

1.1.1.1 LA RGLE UTILE


La rgle utile contient une information de qualit, exploitable. Elle est gnralement facile justifier et comprendre. Si elle est retenue, elle dbouche rapidement vers une action.

1.1.1.2 LA RGLE TRIVIALE


La rgle triviale ressemble aux Lapalissades. Elle souligne des vidences ou le rsultat d'actions prcdentes. Elles ont la particularit d'avoir des taux de confiance levs. Ce sont des rgles valides, avres sur des volumes importants mais totalement inexploitables et inutiles. Exemples : Si Titulaire de carte jeunes, alors moins de 25 ans (100%) Si achat1 alors achat2 (100 %) Si les articles concerns sont toujours vendus ensembles (en lot), cette rgle est en fait une consquence. On retrouve galement dans cette catgorie le succs de certaines campagnes promotionnelles tout fait intressantes. Par exemple les oprations qui pour l'achat d'un article vous en offrent un second pour un franc de plus.

1.1.1.3 LA RGLE INEXPLICABLE


Les rgles inexplicables sont difficiles exploiter directement. Par exemple : "si nouvelle quincaillerie alors achat abattants de toilettes". Les explications possibles sont nombreuses mais une enqute complmentaire est ncessaire la comprhension de la rgle : l'article estil bien en vue lors de l'ouverture puis cach ensuite ? Le rsultat est-il propre certains magasins ? L'article est-il difficile trouver ? L'analyse du panier de la mnagre fournit trois types de rgles : Utiles, Triviales, Inexplicables.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 158

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 METTRE EN UVRE LA TECHNIQUE 1.1.1 LA TAXINOMIE


Un supermarch gre environ 100 000 rfrences diffrentes. Si l'on devait appliquer l'analyse sur tous les articles, cela reprsenterait un tableau des cooccurrences de 10 milliards (100 000) de cellules alimenter pour seulement des associations de deux articles ! Il faudrait donc des espaces disques importants (capacits en traoctets) et des temps de traitements en consquence. Tout cela n'est aujourd'hui pas trs raisonnable et les cots induits seraient importants. Pour palier ce problme, on applique la taxinomie (on utilise galement le terme de taxonomie) : cela consiste regrouper les articles, les gnraliser sous un mme terme gnrique, une mme rubrique : les chocolats noirs, au lait, de diffrentes marques, aux noisettes, allgs, etc seront tous regroups sous le terme chocolat.

1.1.2 LES ARTICLES VIRTUELS


Pour amliorer la performance du systme, il est frquent de rajouter des articles virtuels. Cela peut reprsenter des informations transversales pour regrouper les articles d'une autre manire que la taxinomie : produits allgs, produits issus de l'agriculture biologique ou une marque que l'on pourrait trouver dans plusieurs rubriques. On utilise galement les articles virtuels pour donner des indications supplmentaires sur la transaction : donne temporelle (jour de la semaine, heure, mois, saison, ), mode de paiement, mto, et si possible des donnes sur le client (satisfaction, type d'habitat, catgorie socioprofessionnelle, ge, statut matrimonial, etc ). Ce type d'article fournit des rgles du type : "si printemps et jardin alors achat de gants de jardinage".

1.1.3 LES REGLES DE DISSOCIATION


Une rgle de dissociation est analogue une rgle d'association mais elle fait apparatre la notion de "non". Supposons que dans une entreprise, cinq produits (A,B,C,D,E) soient proposs aux clients. Si un client prend les produits A,B et D, alors il gnrera la transaction {A,B,non C,D et non E}. Ce procd gnre des rgles comme : "si achat du produit A et du produit C alors non achat du produit E". L'inconvnient majeur de cette technique est qu'il fournit des rgles o tout est ni : "si non A et non B alors non C". Les connaissances gnres sont alors peu exploitables et dbouchent rarement sur des actions concrtes.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 159

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.4 LES SERIES TEMPORELLES


L'analyse du panier de la mnagre n'est pas le meilleur outil pour tudier les sries temporelles. L'objet est bien de faire de la description et non de la prvision. La seule contrainte est de disposer dans les donnes d'une information de temps ainsi qu'une cl d'identification de l'objet (principalement le client). La difficult va alors consister transformer les donnes en transactions. Plusieurs possibilits sont offertes : Ajouter chaque article la notion de temps : avant, aprs, en mme temps. Crer des fentres temporelles, c'est dire regrouper toutes les transactions effectues dans un mme intervalle de temps par un mme individu. Cette technique permet de dgager des profils, surtout si l'on y associe des articles virtuels.

1.2 EVALUER LES RESULTATS


Comme nous l'avons indiqu dans le chapitre sur l'valuation (voir page L'EVALUATION), l'valuation doit tre un souci permanent. Pour valuer cette technique, plusieurs indicateurs complmentaires sont utiliss.

1.2.1 LA FRQUENCE
A chaque rgle, il faut associer une mesure de confiance ou de probabilit. On peut commencer par une mesure statistique simple de probabilit : la frquence. La rgle vue dans le paragraphe prcdent est vraie pour deux clients sur cinq, soit 40% des clients.

1.2.2 LE NIVEAU (OU TAUX) DE CONFIANCE


Dans le domaine de l'analyse du panier de la mnagre, on utilise un autre indicateur : le niveau de confiance. C'est la mesure de la probabilit dans la sous population concerne par la condition de la rgle. Pour la rgle "si achat de jus d'orange, alors achat d'eau minrale", nous examinons la population ayant achet du jus d'orange (ici 4 individus) et dnombrons le nombre de fois o la rgle est respecte. La proportion obtenue (ici 2 sur 4, soit 50 %) s'appelle le niveau (ou le taux) de confiance. En fait, il s'agit de la frquence sur une sous population. Le niveau de confiance permet de mesurer la force de l'association. Il faut cependant tre prudent avec cet indicateur car il n'intgre pas la notion d'effectif. Nous avons dans notre exemple un taux de confiance de 100% pour les deux rgles suivantes : Si achat de lait, alors achat de nettoyant vitres Si achat de dtergent, alors achat de jus d'orange Ces rgles portent sur des effectifs respectifs de 1 et 2 individus. Elles sont donc trs relatives, malgr un trs bon taux de confiance.
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 160

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1.1 LE NIVEAU DE SUPPORT


Le niveau de support correspond au nombre de fois o l'association est respecte, ramene au nombre de fois o l'un des articles est prsent. Par exemple, la rgle "Achat de dtergent entrane achat de jus d'orange prsente un taux de confiance de 100 %. L'association est prsente 2 fois mais le jus d'orange ou le dtergent est prsent chez 4 clients. Cela nous fait un taux de support de 2/4=50%. Le niveau de support permet de mesurer la frquence de l'association.

1.1.2 LE TAUX D'AMLIORATION


Que vaut une rgle si son taux de confiance est infrieur la frquence du rsultat sans condition ? Nous avons la rgle : "si achat d'eau minrale, alors achat de jus d'orange". Cette rgle est vraie pour 2 clients sur les trois qui ont achet de l'eau. Le taux de confiance pour l'achat du jus d'orange dans ces conditions est donc de 2/3, soit 66%. Or 4 clients sur 5 achtent du jus d'orange, soit 80% ! Cette rgle ne sera donc pas intressante exploiter car elle rajoute une condition pour un taux moins bon. Pour mesurer l'amlioration apporte par la rgle, on va donc diviser le taux de confiance par la frquence de l'vnement, soit ici : 0.66 / 0.80 = 0.83 (ou 83 %) Si le rsultat est suprieur 1, cela signifie que la rgle (ou plus prcisment le respect de la condition) apporte une amlioration sur le rsultat. Dans le cas contraire, il faut renoncer l'exploiter. Le taux d'amlioration permet de mesurer la pertinence de l'association.

1.2 LES POINTS FORTS


Les points forts de l'analyse du panier de la mnagre sont : Les rsultats sont clairs et explicites, Elle est adapte l'exploitation non dirige des donnes, Elle traite des donnes de taille variable, La technique et les calculs sont simples comprendre.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 161

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 LES POINTS FAIBLES


Les points faibles de l'analyse du panier de la mnagre sont : Le volume de calculs crot au carr ou au cube du volume de donnes, Elle prend mal en compte les articles rares. Il est difficile de dterminer le bon nombre d'articles, Les attributs des articles (dtails et quantits) sont souvent ignors,

1.1 QUAND L'UTILISER ?


Cette technique s'applique aux problmes d'exploitation des donnes non dirige, contenant des articles bien dfinis, qui se regroupent entre eux de manire intressante. On l'utilise souvent en tant qu'analyse pralable car elle gnre des rgles susceptibles de soulever des interrogations ou des ides, ce qui dbouchera sur d'autres analyses plus fines : test d'hypothse ou dcouverte de connaissance dirige pour expliquer un phnomne rvl. Bien que capable de rsoudre de nombreux type de problmes, sa vocation reste la description et l'on a souvent recours d'autres techniques en complment.

1.2 SYNTHESE

L'analyse du panier de la mnagre est un moyen de trouver les groupes d'articles qui vont ensembles lors d'une transaction. C'est une technique de dcouverte de connaissances non dirige (de type analyse de clusters) qui gnre des rgles et supporte l'analyse des sries temporelles (si les transactions ne sont pas anonymes). Les rgles gnres sont simples, faciles comprendre et assorties d'une probabilit, ce qui en fait un outil agrable et directement exploitable par l'utilisateur mtier.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 162

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 LE RAISONNEMENT BASE SUR LA MEMOIRE 2.1 PRESENTATION


C'est une technique de dcouverte de connaissances dirige utilise dans un but de classification et de prdiction. Appele galement raisonnement base de cas (RBC), ou Case Based Reasoning (CBR) en anglais, le raisonnement bas sur la mmoire (RBM) est l'quivalence de l'exprience chez l'homme : en fonction d'elle, tout le monde peut prendre une dcision. Lorsqu'un mdecin pose un diagnostic et un traitement, il applique sa connaissance du patient et de symptmes similaires au cas prsent. Son processus sera l'identification des cas similaires, puis l'application de l'information provenant de ces cas au problme actuel. Le RBM fonctionne sur le mme principe : lorsque l'on prsente un nouvel enregistrement, le RBM trouve les voisins les plus proches et positionne ce nouvel lment. Le RBM s'applique tous les types de donnes.

2.2 UTILISATION
Le RBM s'adapte bien aux bases de donnes relationnelles, qui sont les plus courantes dans le domaine de gestion. Sa mise en uvre est simple, ce qui en fait un outil apprci. On peut l'utiliser pour estimer des lments manquants, dtecter des fraudes, dterminer le meilleur traitement d'un malade, prdire si un client sera intress ou non par telle offre, ou pour classifier les rponses en texte libre. La police Amricaine a utilis cette mthode rcemment pour identifier (efficacement dans le cas prsent) un criminel. En fonction des indices, un criminel virtuel a t cr. Prsent par le RBM une base de criminels connus, celui-ci s'est retrouv positionn prs du vritable criminel !

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 163

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.3 FONCTIONNEMENT
Pour illustrer le fonctionnement du RBM, prenons un exemple simple. Considrons les ventes de voitures Renault, ventiles en fonction de l'ge et du nombre d'enfants de l'acheteur (voir Tableau 40). Vhicule Clio Espace Clio Megane Safrane Laguna Espace Clio Megane Safrane Laguna Espace Age 25 32 28 30 50 35 40 30 34 52 38 34 Enfants 0 4 1 2 1 2 3 1 2 2 1 5 Vhicule Clio Megane Laguna Safrane Clio Megane Laguna Clio Megane Laguna Safrane Age 27 30 39 55 24 33 38 22 35 39 54 Enfants 1 2 0 0 1 2 2 0 1 2 1

Tableau 40 : ventes de voitures en fonction de l'ge et du nombre d'enfants

Ce tableau correspond au graphique suivant :


Graphique 3 : vente de voitures en fonction du nombre d'enfants et de l'ge du client

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 164

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

La consultation du graphique montre des zones bien nettes et permettent de dterminer, pour un nouveau client dont on connat l'ge et le nombre d'enfants, le modle susceptible de l'intresser. Sur le graphique suivant, nous avons plac trois nouveaux clients (reprsents par les toiles numrotes). La notion de distance est la distance mtrique. Dans ce cas, nous conseillerons au client 1 une Espace, au client 2 une Clio, au client 3 une Safrane :
Graphique 4 : positionnement de trois nouveaux clients

Cet exemple est volontairement simpliste mais son unique objectif est pdagogique. Dans une tude relle, le vendeur est suffisamment comptent pour connatre ces informations. De 3 plus, les zones seraient moins nettement dfinies. Enfin, il faudrait rajouter toutes les dclinaisons possibles pour un mme modle.
1

2.4 METTRE EN UVRE LE RBM


La mise en uvre de cette technique est relativement simple. Il suffit de dterminer une 2 fonction de calcul de distance et une fonction de combinaison.

2.4.1 LA FONCTION DE DISTANCE


La fonction de distance mesure l'loignement du nouvel item avec ceux dj connus dans la base. De nombreuses possibilits sont offertes mais la fonction distance doit respecter les rgles suivantes : Une distance est toujours une valeur positive La distance d'un point lui-mme est nulle (identit) La distance de A B est gale la distance de B A (commutativit) Il est impossible de raccourcir la distance de A B en passant par un point C (ingalit triangulaire)

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 165

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Pour les donnes numriques, les trois fonctions de distance les plus courantes entre une valeur A et une valeur B sont : La valeur absolue de la diffrence : |A-B| Le carr de la diffrence : (A-B) La valeur absolue normalise : |A-B| / (diffrence maximale) L'avantage de la valeur absolue normalise est qu'elle se trouve toujours entre 0 et 1, ce qui supprime les problmes d'chelles. Cependant, l'utilisateur reste libre de crer sa propre fonction. Pour les autres types de donnes, c'est l'utilisateur de dfinir sa propre fonction de distance. Par exemple, pour comparer le sexe d'un individu, on pourra affecter la valeur 1 s'ils sont de sexe diffrent ou la valeur 0 s'ils sont identiques (voir rgle de l'identit). Pour une catgorie socioprofessionnelle, il suffit de crer une mtrique. Pour des communes, pourquoi ne pas prendre la distance entre elles ou affecter une codification en fonction du type (urbaine, priurbaine, rurale) ou de la rgion. Il est toujours prfrable de faire une codification dont le rsultat se situera entre 0 et 1.

1.1.1 LA FONCTION DE COMBINAISON


La fonction de combinaison consiste combiner les n voisins les plus proches pour obtenir le rsultat de la prdiction souhaite. Sa mise en uvre sera plus significative au travers de l'exemple qui suit.

1.2 EXEMPLE
Pour notre exemple, considrons une liste de clients ayant dj rpondu une offre commerciale (par oui ou non). L'utilisateur mtier estime que les critres les plus dterminants sont le sexe, l'ge et le salaire net du dernier semestre. Soit la liste suivante de clients identifis : Numro A B C D E Age 27 51 52 33 45 Sexe F M M F M Salaire Acheteur 19000 Non 66000 Oui 105000 Non 55000 Oui 45000 Oui

Tableau 41 : rponse des clients une offre en fonction de l'ge, du sexe et du salaire

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 166

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Considrons maintenant un nouveau client : une femme de 45 ans ayant un revenu de 100000 Francs. Dterminons si cette cliente sera intresse ou non par l'offre. La fonction de distance est dfinie ainsi : il s'agit d'une femme, donc la distance par rapport aux clients connus sera de 1 avec les hommes et de 0 avec les femmes. A ce chiffre, on ajoute la distance normalise du salaire et de l'ge, ce qui donne les tableaux des distances suivants : Client A B C D E Age 0.720 0.240 0.280 0.480 0.000 Sexe 0 1 1 0 1 Salaire 0.942 0.395 0.058 0.523 0.640 Distance totale 1.662 1.635 1.338 1.003 1.640

Tableau 42 : calcul des distances

Les voisins les plus proches sont donc, dans l'ordre : D C B E A Utilisons maintenant la fonction de combinaison. Il va falloir dterminer le nombre de voisins retenus pour l'estimation de la rponse. Pour l'exemple, nous allons faire varier ce nombre de 1 5. Cela nous donne le tableau suivant : Nombre de voisins retenus Numro des voisins Rponses des voisins Dcompte des rponses Valeur retenue Evaluation 1 D O Oui 1 Non 0 Oui 100 % 2 DC O,N Oui 1 Non 1 ? 50 % 3 DCB O,N,O Oui 2 Non 1 Oui 66 % 4 DCBE O,N,O,O Oui 3 Non 1 Oui 75 % 5 DCBEA O,N,O,O,N Oui 3 Non 2 Oui 60 %

Tableau 43 : tableau de synthse utilisant la fonction de combinaison

Il est prfrable de prendre un nombre impair car la rponse ne peut prendre que 2 valeurs et on vite ainsi les rponses incertaines (cas de 2 voisins). Si nous ne retenons que les trois voisins les plus proches, la rponse sera favorable avec une probabilit (ou plutt une esprance) de 66%. Il aurait t possible galement de donner un poids chaque contribution. Par exemple le premier voisin le plus proche aurait un poids de 3, le second un poids de 2 et le troisime un poids de 1. On peut galement affecter des poids chaque variable utilise dans la fonction de distance.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 167

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.3 LES POINTS FORTS DU RBM


Les points forts du RBM sont : Il produit des rsultats explicites, Il s'applique tout type de donnes, Il est capable de travailler sur de nombreux champs, Il est facile mettre en uvre et comprendre.

1.1 LES POINTS FAIBLES DU RBM


Les points faibles du RBM sont : Il ncessite un grand volume de donnes pour tre performant, Il est trs dpendant des fonctions de distance et de combinaison.

1.1 SYNTHESE

Le raisonnement bas sur la mmoire (RBM) est une technique de prdiction et de classification utilise dans le cadre de la dcouverte de connaissances dirige. Elle peut tre galement utilise pour l'estimation. Pour chaque nouvelle instance prsente, le systme recherche les voisins les plus proches et procde ainsi l'affectation ou estimation en les combinant entre eux. L'avantage du RBM est qu'il est facile comprendre, mettre en uvre, trs stable (les nouvelles donnes n'entranent pas de refaire fonctionner un systme de calcul) et supporte tout type de donnes. Les performances de cette technique sont assez bonnes.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 168

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 LA DETECTION AUTOMATIQUE DE CLUSTERS 2.1 PRESENTATION


La dtection automatique de clusters est une mthode de dcouverte de connaissances non dirige (ou apprentissage sans supervision). Cette mthode ne ncessite aucun apprentissage, et son principe consiste regrouper les lments par similarits successives. Elle se dcline en deux grandes catgories : la mthode des K-moyennes et les mthodes par agglomration.

2.2 UTILISATION
L'objectif de cette technique est de procder une classification du type regroupement par similitude. Chaque groupe est appel cluster. C'est une technique trs puissante et son champ d'application est important. Une utilisation classique consiste clusteriser une population puis, aprs tude de chaque cluster, faire une offre commerciale tout fait adapte la population.

2.3 FONCTIONNEMENT
Pour utiliser une des mthodes de dtection de clusters, il faut prvoir une fonction de distance qui mesure l'cart entre deux enregistrements (voir paragraphe LA FONCTION DE DISTANCEpage LA FONCTION DE DISTANCE).

2.3.1 METHODE DES K-MOYENNES


La mthode des K-moyennes permet de dcouper une population en K clusters. Ce nombre K est dfini par l'utilisateur. Le principe de fonctionnement est assez simple : On dtermine un nombre K de clusters. Ensuite on positionne les K premiers points (appels graines) au hasard (on utilise en gnral les K premiers enregistrements). Chaque enregistrement est affect la graine dont il est le plus proche (en utilisant la fonction de distance). A la fin de la premire affectation, la valeur moyenne de chaque cluster est calcule et la graine prend cette nouvelle valeur. Le processus est rpt jusqu' stabilisation des clusters.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 169

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.3.2 METHODE PAR AGGLOMERATION


Cette technique va permettre de construire un arbre mais contrairement aux arbres de dcision, nous partons des feuilles pour remonter jusqu' la racine. Le principe est galement simple : on mesure les distances de tous les lments entre eux, puis on regroupe ceux qui sont les plus proches. On calcule le centrode de chaque groupe et on recommence jusqu' ce que tous les lments soient relis.

2.4 MISE EN UVRE


La grande difficult de cette technique est de trouver une fonction de mesure de distance performante. Cela ne semble poser aucun problme priori pour des variables numriques. Pourtant le nombre de possibilits est important : distance Euclidienne, mesure de l'angle, sommation, sommation normalise, pondr, avec changement de repre, d'chelle, centr et rduit La complexit devient plus importante pour des valeurs numratives non ordonnes. Si aucune mtrique n'est possible, il est courant de prendre une distance gale 0 si les variables sont identiques et 1 dans le cas contraire. D'autres solutions consistent prendre le nombre de mots communs dans un champs texte par exemple. Une bonne fonction de distance donnera de bons rsultats.

2.5 EXEMPLES
Le mme exemple et problme est utilis pour illustrer les deux techniques. A des fins pdagogiques, celui-ci sera simple : classifier des individus selon leurs ges. Soit une liste alatoire d'individus dont les ges sont les suivants : 27 - 51 - 52 - 33 - 45 - 22 - 28 - 44 - 40 - 38 - 20 - 57

2.5.1 METHODE DES K-MOYENNES


Fixons K=3. Les 3 premires graines prennent les trois premires valeurs. Calculons la distance (ici distance = diffrence / (amplitude maximum) = diffrence / 37) entre chaque point et chaque graine, puis affectons au plus prs. Cela nous donne le tableau suivant :
Graine 27 Graine 51 Graine 52 Minimum Affectation 27 0.00 0.65 0.68 0 1 51 0.65 0.00 0.03 0 2 52 0.68 0.03 0.00 0 3 33 0.16 0.49 0.51 0.16 1 45 0.49 0.16 0.19 0.16 2 22 0.14 0.78 0.81 0.14 1 28 0.03 0.62 0.65 0.03 1 44 0.46 0.19 0.22 0.19 2 40 0.35 0.30 0.32 0.3 2 38 0.30 0.35 0.38 0.3 1 20 0.19 0.84 0.86 0.19 1 57 0.81 0.16 0.14 0.14 3

Tableau 44 : calcul des distances entre chaque graine et chaque point

Une premire affectation nous donne :


C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 170

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Graine 1 (27) : 27 - 33 - 22 - 28 - 38 - 20 Graine 2 (51) : 51 - 45 - 44 - 40 Graine 3 (52) : 52 - 57 Pour le calcul des nouveaux centrodes, prenons la moyenne arithmtique de chaque cluster, soit 28 pour la graine 1, 45 pour la graine 2 et 54.5 pour la graine 3. Ces valeurs reprsentent les positions des nouvelles graines. Recommenons le processus de calcul de distance par rapport ces nouvelles valeurs. Cela donne le tableau suivant :
Graine 28 Graine 45 Graine 54.5 Minimum Affectation 27 0.03 0.49 0.74 0.03 1 51 0.62 0.16 0.09 0.09 3 52 0.65 0.19 0.07 0.07 3 33 45 22 28 44 0.14 0.46 0.16 0 0.43 0.32 0 0.62 0.46 0.03 0.58 0.26 0.88 0.72 0.28 0.14 0 0.16 0 0.03 1 2 1 1 2 40 0.32 0.14 0.39 0.14 2 38 0.27 0.19 0.45 0.19 2 20 0.22 0.68 0.93 0.22 1 57 0.78 0.32 0.07 0.07 3

Tableau 45 : calcul des distances entre chaque point et les nouvelles graines (centrodes)

L'affectation donne donc la rpartition suivante : Graine 1 (28) : 27 - 33 - 22 - 28 - 20 Graine 2 (45) : 45 - 44 - 40 - 38 Graine 3 (54.5) : 51 - 52 - 57 Moyenne = 26 Moyenne = 41.75 Moyenne = 53.33

En ritrant le processus, nous voyons qu'il ne modifie plus les affectations. Les clusters sont donc finaliss : Cluster 1: 27 - 33 - 22 - 28 - 20 Cluster 2: 45 - 44 - 40 - 38 Cluster 3: 51 - 52 - 57 Jeunes majeurs - Centrode = 26 Quadragnaires - Centrode = 41.75 Quinquagnaires - Centrode = 53.33

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 171

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.5.2 METHODE PAR AGGLOMERATION


Nous prenons toujours la mme population. Classifions les ges suivants : 27 - 51 - 52 - 33 - 45 - 22 - 28 - 44 - 40 - 38 - 20 - 57 Pour la mthode par agglomration, il faut faire la demie matrice (car la fonction distance est commutative) des distances des lments deux deux : 27 51 52 33 45 22 28 44 40 38 20 57 27 0.00 0.65 0.68 0.16 0.49 0.14 0.03 0.46 0.35 0.30 0.19 0.81 51 0.65 0.00 0.03 0.49 0.16 0.78 0.62 0.19 0.30 0.35 0.84 0.16 52 0.68 0.03 0.00 0.51 0.19 0.81 0.65 0.22 0.32 0.38 0.86 0.14 33 0.16 0.49 0.51 0.00 0.32 0.30 0.14 0.30 0.19 0.14 0.35 0.65 45 0.49 0.16 0.19 0.32 0.00 0.62 0.46 0.03 0.14 0.19 0.68 0.32 22 0.14 0.78 0.81 0.30 0.62 0.00 0.16 0.59 0.49 0.43 0.05 0.95 28 0.03 0.62 0.65 0.14 0.46 0.16 0.00 0.43 0.32 0.27 0.22 0.78 44 0.46 0.19 0.22 0.30 0.03 0.59 0.43 0.00 0.11 0.16 0.65 0.35 40 0.35 0.30 0.32 0.19 0.14 0.49 0.32 0.11 0.00 0.05 0.54 0.46 38 0.30 0.35 0.38 0.14 0.19 0.43 0.27 0.16 0.05 0.00 0.49 0.51 20 0.19 0.84 0.86 0.35 0.68 0.05 0.22 0.65 0.54 0.49 0.00 1.00 57 0.81 0.16 0.14 0.65 0.32 0.95 0.78 0.35 0.46 0.51 1.00 0.00

Tableau 46 : tableau des distances entre chaque point

Positionnons un seuil 10% (0.1) chaque itration. Ainsi, nous aurons au maximum 10 tages. Ce seuil est fix alatoirement en fonction du niveau de regroupement souhait par l'utilisateur. L'ensemble des valeurs est ordonn en ordre croissant. Pour la premire itration, nous ne prenons que les valeurs ayant un seuil infrieur 10%, soit : 0.03 (52-51), 0.03 (27-28), 0.03 (44-45), 0.05 (38-40), 0.05 (20-22) 51 52 27 28 44 45 38 40 20 22 33 57

Tableau 47 : premires agglomrations

chaque cluster ainsi form est reprsent par son centrode (ici nous prendrons la moyenne), ce qui nous donne la nouvelle srie suivante : 27.5 - 51.5 - 33 - 44.5 - 21 - 39 - 57

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 172

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Nous recommenons le processus avec cette nouvelle srie et le seuil de 20% (0.20). 27.5 51.5 33 44.5 21 39 57 27.5 0.00 0.67 0.15 0.47 0.18 0.32 0.82 51.5 0.67 0.00 0.51 0.19 0.85 0.35 0.15 33 0.15 0.51 0.00 0.32 0.33 0.17 0.67 44.5 0.47 0.19 0.32 0.00 0.65 0.15 0.35 21 0.18 0.85 0.33 0.65 0.00 0.50 1.00 39 0.32 0.35 0.17 0.15 0.50 0.00 0.50 57 0.82 0.15 0.67 0.35 1.00 0.50 0.00

Tableau 48 : calcul des distances avec les nouvelles valeurs

Avec un seuil de 20%, nous regroupons les valeurs suivantes (dans l'ordre) : 0.15 (33-27.5), 0.15 (57-51.5), 0.15 (39-44.5)), 0.17 (33-39), 0.18 (21-27.5), 0.19 (44.551.5) Les liens 33-39 et 44.5-51.5 sont pris en compte au niveau 3 car il relie des groupes dj relis par des prdcesseurs. Cela nous donne le graphe suivant :

20

22

27

28

33

38

40

44

45

51

52

57

Tableau 49 : deuxime et troisime niveau d'agrgation.

Une autre solution aurait pu consister grouper les lments entre eux en prenant dans l'ordre croissant les distances. Cela donnerait le graphe suivant :

20

22

27

28

33

38

40

44

45

51

52

57

Tableau 50 : fin de la construction de l'arbre.

Dans l'exemple prsent, cela donne sensiblement le mme graphe mais il peut tre trs diffrent.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 173

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.6 EVALUER
Lorsque les clusters sont dtermins, par la mthode des K-moyennes, il faut valuer la qualit de chaque cluster. L'intrt de la technique est de regrouper des populations statistiques avec le plus grand degr de similarit. Une solution possible consiste tudier la variance de la distance de cette population. Un cluster solide sera constitu d'une population significative et d'une variance faible. D'autres valuations sont faire : Si la population d'un cluster est trop faible, il pourrait tre valable de grouper ce cluster avec un autre. Si un cluster est trop dominant, il sera prfrable de scinder la population en deux (dans et hors cluster) et de relancer le processus pour chaque sous groupe.

2.7 LES POINTS FORTS


Les points forts de cette technique sont : Les rsultats sont clairs, La technique est plutt facile mettre en uvre La mthode des K-moyennes n'est pas grosse consommatrice de ressources Son application est facile

1.1 LES POINTS FAIBLES


Les points faibles de cette technique sont : Il est difficile de trouver une bonne fonction de distance Certains clusters rsultants peuvent tre difficiles expliquer

1.1 SYNTHESE
La dtection automatique de clusters est une technique de dcouverte de connaissances non dirige (ou apprentissage sans supervision). Elle consiste regrouper les enregistrements en fonction de leurs similitudes. Chaque groupe reprsente un cluster. C'est une excellente technique pour dmarrer un projet d'analyse ou de data mining. Les groupes de similitudes permettront de mieux comprendre les donnes et d'imaginer comment les utiliser au mieux.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 174

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 LES ALGORITHMES GENETIQUES 2.1 PRESENTATION


Les algorithmes gntiques reprsentent une technique dont la vocation principale est l'optimisation, mais on peut galement les utiliser pour des prdictions ou classifications. Leur champ d'application est trs large. C'est une technique rcente : les premiers travaux datent de la fin des annes 50 o biologistes et informaticiens ont coopr pour modliser les mcanismes gntiques sur ordinateurs. Mais c'est surtout au dbut des annes 60 que John Holland dveloppa ses travaux de recherche sur ce thme. Le terme d'algorithme gntique, quant lui, date de 1967, tandis que l'algorithme date de 1975. Ces concepts taient mal perus car cette poque rgnait la recherche oprationnelle capable de trouver, par dfinition, la meilleure solution, tandis que les algorithmes gntiques se basent sur un processus alatoire dont l'objectif est de trouver une meilleure solution que celle en cours. Actuellement peu de produits commerciaux proposent ces algorithmes. En fait ils sont intgrs de manire transparente pour optimiser l'apprentissage des rseaux de neurones.

2.2 UTILISATION
Les algorithmes gntiques trouvent de nombreux domaines d'applications. Ils sont utiliss dans l'industrie pour optimiser ou contrler les processus (pression d'un cylindre, temprature d'un four, etc), dans le domaines spatiaux (choix des meilleures implantations d'un distributeur automatique de billets de banque), dans le domaine marketing (choix des meilleurs candidats une offre) mais on les trouve surtout dans le data mining o ils vont optimiser les performances des systmes : modifier les paramtres d'une rgression, optimiser les poids des liaisons d'un rseau neuronal, isoler les variables qui permettent le mieux d'interprter le comportement des clients dans un arbre de dcision.

2.3 FONCTIONNEMENT 2.3.1 NOTIONS DE GENETIQUE


Les algorithmes gntiques sont bass sur les principes de Darwin dans ce domaine. Les chromosomes ( la base des thories sur l'hrdit et l'volution) sont forms de brins d'ADN (acide dsoxyribonuclique). Ceux-ci sont porteurs d'informations sur toutes les caractristiques des individus (couleur des yeux, forme des lvres, maladies hrditaires, tares, ). Lors du processus de reproduction, les gnes se combinent entre eux et les gnes les plus faibles ou les moins biens adapts tendent disparatre. Ceci rend les nouveaux individus plus aptes voluer dans leur environnement. Il arrive galement que certains gnes se combinent mal et aboutissent des anomalies gntiques.
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 175

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.3.2 LES ALGORITHMES GENETIQUES


Les algorithmes gntiques s'inspirent du processus naturel dcrit ci-dessus (voir NOTIONS DE GENETIQUE). Le fichier de dpart doit tre cod par des 0 et des 1. Un nombre n de chromosomes est fix par le systme. Ce nombre ne bougera plus. Pour initialiser le processus, on peut prendre les n premiers enregistrements. Chaque chromosome est valu par une fonction adquate. Cela donnera naissance une nouvelle gnration proportionnelle au rsultat de l'valuation. Divers processus (mutation, croisement, ) seront mis en uvre. Le systme choisira de manire alatoire n nouveaux chromosomes parmi les descendants, ce qui rinitialise le processus. Compte tenu de la mthode de calcul des descendants, les sujets potentiellement les mieux adapts ont plus de chances d'tre choisis.

2.4 MISE EN UVRE DES ALGORITHMES GENETIQUES 2.4.1 PREPARATION DES DONNEES
Pour pouvoir fonctionner correctement, les donnes doivent tre codes sous forme d'une squence de 0 et de 1. Les donnes numriques sont codes en binaires tandis que les autres variables sont codifies sur un ou plusieurs codes lmentaires. Par exemple sexe peut tre cod 1 pour les femmes et 0 pour les garons; nombre annuel de commandes peut tre 00 pour aucune, 01 pour une ou deux, 10 pour trois ou quatre, et 11 pour 5 et plus,

2.4.2 FONCTION D'EVALUATION


Il faut dfinir une fonction d'valuation pour mesurer l'aptitude d'un enregistrement. C'est la partie la plus dlicate, comme nous l'avons dj soulign au paragraphe MISE EN UVREpage MISE EN UVRE . Il faut trouver une fonction adquate au problme pos et chaque cas est un cas particulier. Il existe cependant deux techniques couramment utilises. La premire consiste faire l'valuation compte tenu de cas analogues existants dans l'historique. La seconde consiste crer une fonction spcifique qui va retirer des points lorsque les contraintes ne sont pas respectes.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 176

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.4.3 GENERATION DES DESCENDANTS


Un chromosome reprsente un enregistrement cod en binaire. Il faut initialiser le processus avec un nombre n fixe de chromosomes. Ce nombre ne changera pas. Chaque chromosome est soumis la fonction d'valuation, pour mesurer sa justesse (fitness en anglais). Les chromosomes les plus adapts reoivent une descendance plus importante. L'ensemble des descendants reprsente un cercle compos de n secteurs. Exemple : Soient 4 chromosomes qui, soumis la fonction d'valuation, obtiennent les rsultats respectifs suivants : Chromosome 111100110 100101000 011001001 001110110 TOTAL Evaluation 12 4 15 3 34 % 35.3 % 11.7 % 44.1 % 8.8 % 100 % Angle en radians 2.218 0.739 2.772 0.554 2 PI

Tableau 51 : valuation des chromosomes Graphique 5 : rpartition des descendants sur un cercle

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 177

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.4.4 PROCESSUS DE SELECTION


L'effectif de la population est constant pour viter une extinction ou un trop grand dveloppement. Par consquent le nombre de descendants est toujours ramen celui des parents. Le processus de slection est alatoire. Chaque descendant prend une surface d'un secteur du cercle proportionnel son aptitude (rsultat de la fonction d'valuation). L'angle reprsent par chaque chromosome vaut donc 2xPIxfrquence (voir Tableau 51 page Tableau 51 : valuation des chromosomes). Sur le principe de la roue de la fortune, on procde au tirage alatoire dans le cercle. Cette valeur reprsentera le chromosome retenu. On veillera viter qu'une valeur ne domine pas trop les autres, surtout pas trop vite car il faut conserver un minimum de diversit. En procdant ainsi, les chromosomes les plus adapts reoivent une descendance plus importante. Cette croissance des meilleures solutions sous la contrainte de la pression slective (selective pressure) conduit une disparition progressive des solutions les moins adaptes (ceci contribue confirmer les thories de Darwin).

Graphique 6 : processus de slection des descendants

Valeur retenue La roue tourne

2.4.5 MANIPULATIONS GENETIQUES

Lorsque les descendants sont dfinis, on peut procder des manipulations sur ceux-ci. Il existe trois types de manipulations : l'hybridation (ou croisement), la mutation ou l'inversion.

2.4.5.1 HYBRIDATION
L'hybridation ou croisement (cross-over en anglais) consiste permuter deux chromosomes partir d'un point choisi de manire alatoire.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 178

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining


Tableau 52 : hybridation de deux chromosomes

Version 1.1
Le 15 Juin 1998

2.4.5.2 MUTATION
La mutation consiste changer la parit d'un des lments pris au hasard :

Tableau 53 : mutation d'un chromosome

2.4.5.3 INVERSION
L'inversion consiste intervertir deux caractres conscutifs :

Tableau 54 : inversion dans un chromosome

50% 60 % des descendants vont subir une manipulation. Afin d'obtenir de bonnes performances, le taux d'hybridation est souvent lev (80% du taux de manipulation).

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 179

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.4.6 FIN DU PROCESSUS


Aprs les manipulations, le systme choisit de manire alatoire parmi tous les descendants le nombre fixe de chromosomes (gnralement faible, de l'ordre des units). Le processus recommence jusqu' trouver une solution acceptable.

2.4.7 SYNOPTIQUE
Choix des n premiers chromosomes

-1Gnration des descendants -2Slection (choix pseudo-alatoire) d'une nouvelle gnration de n chromosomes -3Manipulations gntiques (hybridation, inversion, mutation) NON

Evaluation des chromosomes

Solution acceptable ?

OUI Fin du processus


Tableau 55 : synoptique du processus de mise en uvre des algorithmes gntiques

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 180

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.5 EXEMPLE
Pour illustrer cette technique, nous allons prendre un exemple simple. Nous cherchons maximiser une valeur numrique code sur 8 caractres (de 00000000 11111111). Notre fonction d'valuation vaut f(x)=-x+256x. Initialisons la procdure avec les 4 chromosomes suivants, choisis au hasard : 00110011, 11001111, 00000111, 10101010 (soit 51, 207, 7 et 170) L'valuation de ces valeurs donne respectivement : 10455 - 10143 - 1743 - 14620 L'estimation moyenne est de 9240,25. La meilleure estimation correspond au point 170 (soit en binaire 10101010). Calculons les descendants. La rpartition sera la suivante : Chromosome 00110011 11001111 00000111 10101010 Total Valeur dcimale 51 207 7 170 Aptitude 10455 10143 1743 14620 36961 Frquence 0,28 0,27 0,05 0,40 1 Nombre de descendants 1 1 0 2 4

Nous voyons que le chromosome le moins bien adapt disparat. La gnration des descendants vaut : 00110011, 11001111, 10101010,10101010. Procdons maintenant aux manipulations gntiques : croisons les descendants 2 et 3 partir du quatrime caractre et oprons une mutation sur le troisime caractre 4me descendant et une inversion sur les deuxime et troisime caractre du 1er descendant. Cela nous donne la gnration suivante : 01010011,11001010,10101111,10001010. Evaluons cette nouvelle gnration : Chromosome 01010011 11001010 10101111 10001010 Total Valeur dcimale 83 202 175 138 Aptitude 14359 10908 14175 16284 55726 Frquence 0,26 0,20 0,25 0,29 1 Nombre de descendants 1 1 1 1 4

Nous constatons que la solution globale est meilleure (meilleur total) et que la solution 10001010 reprsente par le 4me descendant est la meilleure jusqu' prsent. En ritrant ce processus, nous constaterions que les solutions convergent vers la meilleure valeur assez rapidement.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 181

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.6 LES POINTS FORTS


Les points forts des algorithmes gntiques sont : Les rsultats sont explicites et facile analyser Ils peuvent traiter une large gamme de types de donnes Ils s'adaptent bien aux problmes d'optimisation Ils sont performants pour optimiser les rseaux de neurones

1.1 LES POINTS FAIBLES


Les points faibles des algorithmes gntiques sont : Le codage binaire peut tre complexe raliser L'optimilat, voire l'optimisation n'est pas garantie Les produits commerciaux sont rares

1.1 SYNTHESE
Les algorithmes gntiques sont utiliss dans la dcouverte de connaissances dirige. Ils permettent de rsoudre des problmes divers, notamment d'optimisation, d'affectation ou de prdiction. Leur fonctionnement s'apparente celui du gnome humain. Le principe de fonctionnement est le suivant : les donnes sont converties en chanes binaires (comme les chanes d'ADN - acide dsoxyribo nuclique-). Celles-ci se combinent par slection, croisement ou mutation et donnent ainsi une nouvelle chane qui est value. En fonction du rsultat, les chanes les plus faibles cdent leur place aux plus fortes. Cette technique est particulirement intressante pour rsoudre des problmes d'affectation ou des problmes sur lesquels on peut poser une fonction d'valuation car elle peut trouver des solutions optimises parfois inexistantes dans les donnes d'origine.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 182

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 LES AGENTS INTELLIGENTS OU KNOWBOT 2.1 PRESENTATION


Le terme de Knowbot est un condens de Knowledge (connaissance) et Robot. Ce terme a t traduit en franais par "agent intelligent". Un agent est une entit physique ou abstraite capable d'agir sur elle-mme et sur son environnement. Il dispose d'une reprsentation partielle de cet environnement et peut communiquer avec d'autres agents. Il poursuit un objectif individuel et son comportement est la consquence de ses observations, de ses comptences, et des interactions qu'il peut avoir avec d'autres agents et son environnement. Un agent possde un objectif personnel qui le distingue fortement des programmes informatiques traditionnels trs collectivistes. C'est une entit logicielle qui prsente les caractristiques suivantes; il est : Grable (il prend ses instructions d'un homme ou d'un agent) Autonome (il prserve ses intrts propres) Persistent (il sait ne rien faire sur de longues priodes) Fiable (il rpond aux besoins de l'utilisateur) Prvoyant (il sait anticiper les besoins) Actif (il peut prendre des initiatives) Communicant (il interagit pour rsoudre les problmes ou conflits) Adaptatif (il sait changer d'environnement)

1.1 UTILISATION
L'explosion d'Internet a considrablement accru les volumes d'informations accessibles. Pour s'en convaincre, il suffit de lancer une recherche sur un mot cl pour trouver quelques dizaines de milliers de sites en rapport. Une telle quantit de donnes reprsente plus un handicap qu'un avantage. Les agents intelligents ont trouv dans ce domaine un secteur tout fait adapt leurs fonctionnalits. Au service de l'utilisateur, ils sont capables de gnrer et d'excuter un plan de recherche, de rsoudre les problmes dans l'excution de ce plan et par interaction avec l'utilisateur, d'amliorer leurs comportements. Ces types d'agents ne relvent pas du data mining puisqu'ils ne font que reproduire un processus manuel. Cependant, avec le dveloppement du commerce lectronique sur le Web, de nouveaux agents "commerciaux" (les conseillers lectroniques), sont mis en place et on peut tout fait assimiler leurs fonctions aux tches du data mining.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 183

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.2 LES CONSEILLERS ELECTRONIQUES


L'ouverture du commerce lectronique (sur le Web) offre une nouvelle perspective pour les agents intelligents. Ils peuvent excuter les deux facettes d'une ngociation : il existe des agents vendeurs et des agents ngociateurs.

1.2.1 LES AGENTS NEGOCIATEURS


Un agent ngociateur parcourt une liste de vendeurs potentiels. Il diffuse une demande de tarifs sur les sites visits. Par la mme occasion, il fixe un dlai sa demande. Il gre les rponses et se charge des relances. Enfin, il tablit un rapport pour le demandeur. L'utilisateur slectionne le vendeur et l'agent se charge de l'envoi du bon de commande.

1.2.2 LES AGENTS VENDEURS


Un agent vendeur apprend connatre un client en examinant ses achats et en compltant ses connaissances par des questions complmentaires. La proposition de certaines offres et la rponse du client permettent l'agent de construire un profil prcis de l'acheteur. L'agent est dou d'une capacit d'apprentissage qui lui permet de connatre de mieux en mieux le client potentiel. Ds lors, et grce aux outils de data mining (le raisonnement bas sur la mmoire par exemple - voir page LE RAISONNEMENT BASE SUR LA MEMOIRE -), il est capable de faire des offres commerciales de type "un un".

1.3 KNOWBOT ET DATA MINING


Etant donn qu'il existe plusieurs dfinitions pour le data mining, il est difficile de dire si le Knowbot en fait partie ou non. Mais mme si certains puristes ne l'intgrent pas, il s'inscrit dans la priphrie. L'utilisation la plus frquente du data mining est le domaine commercial en vue de faire des offres individualises aux clients potentiels. Il ne fait aucun doute que ce type d'agent s'inscrit pleinement dans ce cadre.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 184

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.4 EXEMPLE
Actuellement des expriences sont en place aux Etats-Unis. Sur abonnement, un utilisateur initialise le processus en remplissant un questionnaire sur ce qu'il aime et dteste. Par la suite, tous les achats lectroniques sont enregistrs et remonts vers la socit dtentrice du systme. Dans le mme temps, par analogie de gots et comportements, le systme fait des propositions individualises au client. Ce type de service est consultable par exemple sur http://www.firefly.com ou http://www.hotmail.com. Dbut 1998, la socit Microsoft a rachet la socit hotmail (qui propose ce type de services) et dispose ainsi de 9 millions d'abonns. En mai 1998, la socit firefly t rachete galement par Microsoft. Ce dernier envisage d'intgrer ce principe dans les versions futures de son navigateur (Internet Explorer). L'intrt de Microsoft pour ces technologies montre bien son enjeu stratgique et commercial.

1.5 SYNTHESE
Les agents intelligents ou Knowbot sont des entits logicielles autonomes dont les plus rcentes versions s'intgrent tout fait dans le processus de data mining. Certains iront jusqu' les considrer comme des outils de data mining. Certains d'entre eux, les plus labors, sont capables de suivre et mmoriser les mouvements, visites et achats sur Internet et permettent d'laborer des profils d'utilisateurs pour leur faire des offres commerciales "un un (one to one) ". L'utilisateur peut, quant lui, lancer des appels d'offres et mises en concurrence automatiquement grs par ces agents. Cette volution (tout comme celle du data mining) nous amnent nous poser des questions d'thique et de respect de la vie prive.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 185

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 LES RESEAUX BAYESIENS 2.1 PRSENTATION


Les rseaux Baysiens ont pour objectif la dcouverte des relations. Ils permettent en effet la comprhension de certaines relations. Leur fonctionnement est bas sur la thorie des graphes.

2.1.1 RAPPEL SUR LA THORIE DES GRAPHES


Un graphe est compos :
De nuds ou sommets qui reprsentent les objets, Dartes qui relient les objets, De chemins qui sont une suite ordonne de nuds relis par des artes.
1 3 2

Figure 25 : un graphe

Un graphe peut tre connexe, totalement connexe, pondr et/ou orient. Graphe connexe : il existe un chemin entre chaque nud.
1 4 2

Figure 26 : graphe connexe

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 186

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Graphe totalement connexe : il existe une arte entre chaque paire de nuds.

Figure 27 : graphe totalement connexe

Graphe pondr : chaque arte possde un poids.


1 5 2 2 3

Figure 28 : graphe pondr

Graphe orient : une arte est reprsentative dun sens.


1 2 3

Figure 29 : graphe orient

2.2 FONCTIONNEMENT
Un rseau Baysien est un graphe orient dans lequel les nuds reprsentent les variables et dans lequel les artes symbolisent les dpendances entre les variables. Il mesure la probabilit dapparition dun vnement connaissant le rsultat observ sur dautres variables.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 187

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.3 MISE EN PLACE


La mise en place dun rseau Baysien passe par les tapes suivantes :
Prparation des variables, Slection des variables, Identification des dpendances, Matrice des probabilits.

2.3.1 PRPARATION DES VARIABLES


Cette tape consiste distinguer les variables discrtes et continues, puis dfinir des intervalles pour les variables continues.

2.3.2 SLECTION DES VARIABLES


Cest la dtermination des variables dentre et de sortie, sachant quune variable de sortie ne peut pas tre une entre pour une autre variable. La slection seffectue par un classement daprs la mesure dentropie dont la formule est la suivante H(X) = P(x)logP(X) avec X une variable et P(X) sa probabilit dapparition.

2.3.3 IDENTIFICATION DES DPENDANCES


Cela consiste mesurer la dpendance entre les nuds puis les classer par ordre dcroissant. La mesure de la dpendance entre deux variables seffectue en calculant un facteur de dpendance I(X/Y) = H(X) H(X/Y) Ce facteur permet de dterminer lincidence de la variable Y sur la variable X, si ce rsultat est nul, cela signifie que les variables sont indpendantes. La difficult reste dterminer quel seuil est significatif.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 188

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.3.4 MATRICE DES PROBABILITS


Cest le comptage des occurrences entre les nuds afin dtablir les probabilits.

2.4 LES POINTS FORTS


Bonne rsolution, Bonne visibilit, Bonne dcouverte de relation.

2.4.1 BONNE RSOLUTION


Cette technique permet une trs bonne rsolution des problmes bass sur les liens. Elle peut tre utilise dans les domaines du transport, des tlcommunications,

2.4.2 BONNE VISIBILIT


De par son cot graphique, elle donne une bonne visualisation des rsultats et met en vidence les relations entre les diffrents lments.

2.4.3 BONNE DCOUVERTE DE RELATIONS


Une fois les liens analyss, de nouveaux critres de dcision peuvent tre mis en place.

2.5 LES POINTS FAIBLES


Mauvaise adaptation, Peu doutils, Mauvaise performance.

2.5.1 MAUVAISE ADAPTATION


Lun des principaux inconvnients de cette technique est la difficult dadaptation de nombreux types de donnes.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 189

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.5.2 PEU DOUTILS


De plus, il existe lheure actuelle peu doutils sur le march.

2.5.3 MAUVAISE PERFORMANCE


Cette technique engendre de nombreuses lectures et de nombreux calculs, dus aux multiples combinaisons possibles ce qui la rend trs consommatrice de puissance machine.

En conclusion, les rseaux Baysiens ne sont pas bien adapts la prdiction ou la classification des donnes, mais les relations dcouvertes sont un bon point dentre pour dautres techniques, telles les rseaux de neurones ou les arbres de dcisions.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 190

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

3 LES ARBRES DE DECISIONS 3.1 PRSENTATION


Les arbres de dcisions ont pour objectif la classification et la prdiction. Leur fonctionnement est bas sur un enchanement hirarchique de rgles exprimes en langage courant.

3.2 FONCTIONNEMENT
Un arbre de dcision est compos :
Dun nud racine par lequel entre les enregistrements, De questions, De rponses qui conditionnent la question suivante, De nuds feuilles qui correspondent un classement.
1 Noeud racine

Noeud fils

Noeud feuille

4 Noeuds feuilles

Figure 30 : structure d'un arbre de dcision

Le jeu de questions et rponses est itratif jusqu ce que lenregistrement arrive un nud feuille. Afin de dterminer quelle variable doit tre affecte chaque nud, la technique applique un algorithme sur chacun des paramtres et conserve le plus reprsentatif dun dcoupage Il existe trois algorithmes de calcul CART, C4.5 et CHAID.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 191

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

3.2.1 CART
Cet algorithme a t publi en 1984 par L.Briemen. Il est utilis dans de nombreux outils du march. Processus
Trouver la premire bifurcation, Dvelopper larbre complet, Mesurer le taux derreur chaque nud, Calculer le taux derreur de larbre entier, Elaguer, Identifier les sous-arbres, Evaluer les sous-arbres, Evaluer le meilleur sous-arbre.

La premire bifurcation est celle qui divise le mieux les enregistrements en groupes. Ainsi pour dterminer le critre qui effectuera le meilleur partage entre les lments, un indice de diversit est calculer, selon la formule suivante : Max. de : diversit(avant division) (diversit fils gauche + diversit fils droit) Il existe diffrents modes de calcul pour lindice de diversit : - Min. (Probabilit(c1), Probabilit(c2)), - 2 Probabilit(c1)Probabilit(c2), - (Probabilit(c1)logProbabilit(c1))+ (Probabilit(c2)logProbabilit(c2))

Nud racine Fminin 80 % Nuds intermdiaires Masculin 20 %

Figure 31 : construction de l'arbre

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 192

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Une fois la premire bifurcation tablie, nous avons donc le nud racine qui se spare en deux. Ltape suivante est donc de dvelopper larbre complet en divisant de la mme faon les nouveaux nuds cres, et ainsi de suite tant que le rsultat de la division a une valeur significative. Le dernier nud tant le nud feuille qui donne le classement final dun enregistrement. Larbre rsultant nest pas obligatoirement le meilleur, la prochaine tape est de calculer le taux derreur pour chaque nud. Si nous supposons que 11 enregistrements sur 15 sont classs correctement daprs lensemble dapprentissage, la probabilit pour ce nud est de 11/15 soit 0,7333. Le taux derreur attribu est de 1 0,7333 = 0,2667. Le calcul du taux derreur de chaque nud tant fait, il est possible de calculer le taux derreur de larbre entier soit : t : taux derreur dun nud P : probabilit daller au nud Taux derreur de larbre = (t * P) Soit dans lexemple, avec un taux derreur de (15/17) pour le nud Masculin ((11/15) * 0,80) + ((15/17) * 0,20) = 0,763 Le danger de larbre de dcision, tel quil est constitu lissue du premier passage, est que certains nuds feuilles ne contiennent pas suffisamment denregistrements pour tre significatifs. Il faut laguer, le plus complexe tant de trouver la bonne limite appliquer. Le choix des branches supprimer, se fait par lintermdiaire du taux derreur ajust dun arbre qui se calcule, sur chaque sous arbre possible, comme suit : Soit le compte des feuilles Taux derreur ajust = taux derreur + compte des feuilles Un premier sous arbre est candidat lorsque son taux derreur ajust devient plus petit ou gal au taux derreur ajust de tout larbre. Toutes les branches, qui nen font pas partie, sont lagues, et le processus recommence ainsi de suite jusquau nud racine. Il faut donc maintenant choisir parmi tous les sous arbres candidats. Pour cela, chaque sous arbre va tre excuter avec un ensemble de test, celui qui aura le plus petit taux derreur sera considr comme le meilleur. Enfin pour contrler lefficacit du sous arbre slectionn, un ensemble dvaluation va lui tre soumis. Son taux derreur obtenu donnera une estimation des performances de larbre.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 193

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

3.2.2 C4.5
Algorithme dvelopp par J.Ross Quinlan. La version intrieure sappelait ID3, et est encore utilise dans quelques produits. Nous allons tudier ici les diffrences entre C4.5 et CART tant donn les nombreuses similitudes entre ces deux algorithmes.

3.2.2.1 NOMBRE DE SORTIES DUN NUD VARIABLE


Contrairement CART qui gnre des sorties binaires, C4.5 accepte plusieurs valeurs lissue dun nud.

3.2.2.2 MTHODE DE DTERMINATION DE LORDRE DES BIFURCATIONS


Au lieu dutiliser lindice de diversit comme mthode daffectation des bifurcations, C4.5 utilise le gain informationnel total.

3.2.2.3 ELAGAGE
C4.5 nutilise pas densemble de test, il lague son arbre partir des donnes dapprentissage en considrant que le taux derreur rel sera sensiblement pire, ce qui le conduit parfois, lorsque les nuds comportent peu denregistrements, supprimer des sousarbres complets.

3.2.2.4 ENSEMBLE DE RGLES


C4.5 dduit de larbre de dcision un ensemble de rgles, qui facilite son interprtation. Exemple : Regarde le match et son quipe gagne et sort avec des amis alors bire Regarde le match et son quipe gagne et reste domicile alors soda Regarde le match et son quipe perd et sort avec des amis alors bire Regarde le match et son quipe perd et reste domicile alors lait En tudiant ces rgles, on se rend compte quil est possible de simplifier, car le fait que son quipe gagne ou perde ninflue pas sur le rsultat qui est bire. Une des nouvelles rgles est donc Regarde le match et sort avec des amis alors bire. C4.5 aboutit ainsi un arbre simplifi.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 194

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

3.2.3 CHAID
Algorithme publi en 1975 par J.A. Hartigan. Il est utilis dans les progiciels tels que SPSS et SAS. Comme pour CART et C4.5, nous allons tudier les diffrences entre CHAID et les deux algorithmes vus prcdemment.

3.2.3.1 DVELOPPEMENT DE LARBRE


Tout dabord, CHAID utilise pour choisir les bifurcations le test du chi-2, que lon ne dtaillera pas ici. Et enfin, contrairement aux autres il ne dveloppe pas larbre complet, pour ensuite llaguer, mais tente ds le premier passage de limiter sa croissance.

3.3 MISE EN PLACE


Les diffrentes tapes de mise en place sont :
Prparation des donnes, Enrichissement des donnes, Cration de larborescence, Validation de larborescence.

3.3.1 PRPARATION DES DONNES


Il faut dfinir la nature, le format des variables et leur mthode de traitement. Ces variables peuvent tre catgoriques non ordonnes (exemple : situation de famille) ou catgoriques ordonnes (exemple : tranches de revenus) ou encore continues.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 195

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

3.3.2 ENRICHISSEMENT DES DONNES


Lenrichissement des donnes englobe diffrentes techniques afin de faciliter la lecture des donnes pertinentes. Il est possible d'introduire une organisation en classes ou une typologie ou encore des variables combines. Lorganisation en classe se ralise par lintroduction de taxonomie (exemple : catgorie socioprofessionnelle), cest dire un regroupement par type dobjet dont le niveau de dtail le plus fin nest pas significatif pour ltude. Il est aussi possible dintroduire une typologie daprs certaines caractristiques des variables analyses (familles branchs, ). Et enfin, la combinaison de variables lmentaires peut fournir de nouvelles informations (exemple : revenu moyen).

3.3.3 CRATION ET VALIDATION DE LARBORESCENCE


Selon lalgorithme choisi (voir paragraphe prcdent).

3.4 LES POINTS FORTS


Simplicit dutilisation, Bonne lisibilit, Bonne adaptation aux donnes.

3.4.1 SIMPLICIT DUTILISATION


Lutilisation des produits conus sur la technique des arbres de dcision est trs simple car elle est trs visuelle et trs intuitive, ce qui la rend abordable pour les utilisateurs.

3.4.2 BONNE LISIBILIT


La clart du modle rsultant permet une validation rapide, contrairement certaine technique o il est impossible d'expliquer le rsultat.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 196

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

3.4.3 BONNE ADAPTATION


Les arbres de dcisions permettent de manipuler des variables continues, discontinues, catgoriques et numratives.

3.5 LES POINTS FAIBLES


Mauvaise performance Cot dapprentissage

3.5.1 MAUVAISE PERFORMANCE


Les arbres de dcisions deviennent peu performants lorsquil y a beaucoup de classes. En effet, ils risquent de devenir trop dtaills, ce qui leur fait perdre de leur lisibilit ou encore daboutir de mauvais classements

3.5.2 COT DE LAPPRENTISSAGE


Le fait de devoir calculer pour chaque nud, le meilleur critre lors du premier passage puis ensuite lors de llagage alourdit les calculs.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 197

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

4 LES RESEAUX DE NEURONES 4.1 PRSENTATION


Le fonctionnement dun rseau de neurones est inspir de celui du cerveau humain. Il reoit des impulsions, qui sont traites, et en sortie dautres impulsions sont mises pour activer les muscles. Il existe deux types de rseaux :
apprentissage supervis o la rponse est connue apprentissage non supervis o le rseau ne connat pas le rsultat.

Nous nous intresserons ici aux rseaux apprentissage supervis. Le rseau est construit partir de cas connus (telles donnes en entre doivent fournir tel rsultat).

4.2 FONCTIONNEMENT
Les composants sont :
Le neurone formel, Une rgle dactivation, Une organisation en couches, Une rgle dapprentissage.

4.2.1 NEURONE FORMEL


Le neurone formel calcule la somme pondre par son poids de chaque entre transmise par le reste du rseau = (Xi * Wi)

X1

W1

Xn Wn

Figure 32 : le neurone formel

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 198

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

4.2.2 RGLE DACTIVATION


A chaque neurone formel du rseau est associ une rgle dactivation avec une frquence T et une fonction, gnralement sigmode, qui a pour rsultat dactiver ou non le neurone de sortie. si (Xi * Wi) > seuil activation du neurone de sortie

X1

W1 Fonction Sortie

Xn Wn

Figure 33 : activation du neurone

4.2.3 ORGANISATION EN COUCHES


Afin de rsoudre des problmes de toute complexit, le rseau a une organisation en couches. La couche dentre transmet ses rsultats la couche suprieure qui, ayant de nouvelles donnes et de nouveaux poids retransmet ses donnes rsultantes la couche suivante et ainsi de suite jusqu la couche de sortie qui fournit le neurone de sortie. On appelle les couches intermdiaires les couches caches.
W1 U1

X1

X2

Xn Wn Couche D'entre Couches cachs Un Couche de sortie

Figure 34 : les diffrentes couches du rseau de neurone

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 199

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

4.2.4 RGLE DAPPRENTISSAGE


La rgle dapprentissage permet au rseau dvoluer dans le temps en tenant compte des expriences antrieures. Les poids des connexions sont modifis en fonction des rsultats prcdents afin de trouver le meilleur modle par rapport aux exemples donns.

4.3 MISE EN PLACE


La construction dun rseau de neurones est constitue des tapes suivantes :
Prparation des donnes, Dtermination des paramtres, Phase dapprentissage, Phase doptimisation, Phase de test, Phase dexploitation.

Nous ne dtaillerons que les trois premires tapes, les tapes suivantes ne prsentant pas de spcificit par rapport une mise en place informatique classique.

4.3.1 PRPARATION DES DONNES


La prparation des donnes consiste dterminer les entres et les sorties, constituer la base dexemples, coder les entres et enfin optimiser le jeu de donnes.

4.3.2 DTERMINATION DES ENTRES ET DES SORTIES


Il ny a pas de rgles en la matire, tout dpend du problme traiter et des informations disponibles.

4.3.3 CONSTITUTION DE LA BASE DEXEMPLES


Le choix des exemples conditionne, bien entendu les rsultats. Le but tant dexpliquer un phnomne. Si une action est positive dans 90 % des cas, ce nest pas pour autant quil faille prendre un chantillon contenant 90 % des cas positifs aussi. Mieux vaut quilibrer et faire 50 / 50 afin de forcer le rseau comprendre les 10 % ngatifs.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 200

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

4.3.4 CODAGE DES ENTRES


Le codage des entres est lassociation des variables aux neurones. Ainsi une valeur continue sera reprsente par un neurone alors quune variable discrte prenant, par exemple, les valeurs travailleur actif ou non actif sera code par deux neurones.

4.3.5 OPTIMISATION DU JEU DE DONNES


Le jeu de donnes constitu ltape prcdente, peut contenir soit beaucoup trop de variables, qui alourdirait le travail dapprentissage, soit des valeurs aberrantes qui fausseraient les calculs. Il est donc important de retravailler cet chantillon.

4.3.6 DTERMINATION DES PARAMTRES


Architecture : dtermination du nombre de couches et du nombre de neurones de chaque couche. Fonction de sommation : dfinition de la nature de loprateur qui combine les poids des Wi (somme, minimum, maximum, majorit, produit). La plus utilise est la somme. Fonction de transfert : dtermination de la fonction appliquer sur le rsultat de la fonction de sommation (sigmode, linaire, gaussienne). La plus utilise est la sigmode. Fonction de normalisation : transformation de la sortie soit pour la rendre comprhensible par lutilisateur, soit pour la mettre dans des limites acceptables pour les couches caches. Fonction de comptition : dtermination de la ou des sorties qui seront prsentes la couche suivante (la plus forte, les deux plus fortes, ). Calcul de lerreur : calcul de lcart entre la sortie donne et la sortie calcule (erreur moyenne, erreur absolue, erreur quadratique, sens de variation de lerreur).

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 201

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

4.3.7 PHASE DAPPRENTISSAGE


Lapprentissage consiste descendre le rseau de faon itrative en ajustant les poids chaque passage selon le calcul derreur jusqu ce quil ny ait plus damlioration. Pour cela, un algorithme de rtropropagation de lerreur est mis en uvre. Principe de lalgorithme de rtropropagation de lerreur Initialiser la matrice des poids au hasard Choisir un exemple en entre Propager le calcul de cette entre travers le rseau Calculer la sortie de cette entre Mesurer lerreur de prdiction par diffrence entre sortie relle et sortie prvue Calculer la contribution dun neurone lerreur partir de la sortie Dterminer le signe de modification du poids Corriger les poids des neurones pour diminuer lerreur

Le processus recommence ainsi, partir du choix de lexemple en entre, jusqu ce quun taux derreur minimal soit atteint.

Figure 35 : synoptique du rseau de neurones

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 202

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.1 LES POINTS FORTS


Souplesse, Bonne rsolution, Bonne adaptation aux donnes, Outils disponibles.

1.1.1 SOUPLESSE
Les rseaux de neurones sont capables de traiter une gamme trs tendue de problme. Leur rsultat peut tre une prdiction, une classification ou encore une analyse de clusters.

1.1.2 BONNE RSOLUTION


Ils donnent de bons rsultats, mme dans des domaines complexes car ils sont beaucoup plus puissants que les statistiques ou les arbres de dcisions.

1.1.3 BONNE ADAPTATION


Une fois les donnes codes, ils traitent aussi bien des variables continues qunumratives.

1.1.4 OUTILS DISPONIBLES


Il existe de nombreux produits sur le march intgrant la technique des rseaux de neurones (4Thought, Saxon, Neural connection, Clementine, Intelligent Miner, SAS, etc.).

1.2 LES POINTS FAIBLES


Codage des entres, Lisibilit, Dtermination de la taille, Non optimalit, Performance.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 203

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.2.1 CODAGE DES ENTRES


Toutes les entres dun rseau de neurones doivent se trouver dans un intervalle dfini, en gnral, entre 0 et 1. Ce qui entrane des transformations, qui impliquent des traitements supplmentaires, et risque de fausser les rsultats.

1.2.2 LISIBILIT
Les rseaux de neurones ne fournissent pas lexplication de leur rsultat. Ce qui peut tre gnant si on cherche comprendre un phnomne.

1.2.3 DTERMINATION DE LA TAILLE


Afin que lchantillon fournisse de bons rsultats, sa taille doit tre calcule en fonction du nombre dentres, du nombre de couches et du taux de connexion. Ce qui entrane une augmentation du nombre dexemples, qui ne sont pas toujours disponibles.

1.2.4 NON OPTIMALIT


Le rseau propos qui parat optimal dune faon globale, nest pas toujours la meilleure solution. En effet, plusieurs optima locaux ne donnent pas toujours la solution optimale en totalit.

1.2.5 PERFORMANCE
Le nombre de calculs effectuer pour dfinir un rseau optimal peut tre trs consommateur de puissance, ce qui peut donner de mauvaises performances cette technique.

Les rseaux de neurones ont pour objectif la classification et la prdiction.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 204

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 MISE EN PLACE
Ce chapitre prsente une dmarche pour mettre en place un projet de Data Mining. Nous prendrons, pour illustrer, lexemple dun courtier en assurances qui lance trois nouvelles gammes.

2.1 POSER LE PROBLME


Avant dengager une action, il faut dabord bien dfinir le problme. Dans lexemple prsent, le directeur veut savoir qui sont ces clients actuels et quels clients il peut proposer ses nouveaux produits.

2.2 RECHERCHE DES DONNES


Pour rpondre ces deux interrogations, il est ncessaire de rechercher les informations qui donnent les caractristiques des clients et les achats quils ont effectus. On peut retenir : Pour les clients lge le sexe la situation de famille le nombre denfants la catgorie professionnelle les centres dintrts la commune la taille de la commune le type dhabitation Pour les produits achets le produit la date le montant le type de paiement Le choix des donnes tant fait, il faut dterminer les diffrentes sources. Certaines proviennent du contrat (ge, sexe, produit, montant, etc.), dautres de questionnaires (centres dintrts) ou de base de donnes nationales (taille de la commune).

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 205

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.3 SLECTION DES DONNES


Certaines donnes, comme les centres dintrts, peuvent tre difficile rcolter, tous les clients ne rpondant pas aux questionnaires. Le taux de rponse peut tre estim 40 %. Pour la slection des donnes, on ne peut pas exclure les clients nayant pas rpondu aux questionnaires car cela fausserait les chiffres de ltude, par contre, il faut se fixer certaines rgles pour limiter la taille de lchantillon. Ne pas prendre les clients qui nont pas effectu dachats durant les trois dernires annes. Prendre un enregistrement sur trois pour les clients ayant un montant dachat total suprieur 20.000 FR. Prendre un enregistrement sur dix pour les clients ayant un montant dachat infrieur 20.000 FR. A lissue de cette slection, nous nous trouvons en prsence dun chantillon, o le poids des clients fort potentiel a t augment, ce qui permettra de mieux analyser leur comportement.

1.1 NETTOYAGE DES DONNES


Trois types de problmes peuvent tre rencontrs dans cet chantillon : les valeurs aberrantes, les valeurs manquantes et les valeurs nulles. Les valeurs aberrantes sont dtecter par les mthodes statistiques classiques. Les valeurs manquantes peuvent tre remplaces par une moyenne nationale, exemple le nombre denfants.

1.2 ACTIONS SUR LES VARIABLES


Pour que les donnes soient exploitables, il faut maintenant agir sur certaines variables, par des transformations monovariables ou multivariables. Transformations monovariables :
Modification de lunit de mesure pour avoir des valeurs comparables. Transformation des dates en dures, par exemple, anciennet du client. Modification des donnes gographiques en coordonnes.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 206

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Transformations multivariables Ratios Frquence Tendances

1.3 RECHERCHE DU MODLE


Cette tape consiste extraire les facteurs pertinents et les prsenter sous forme synthtique. Dans notre exemple, les trois facteurs dterminants qui apparaissent sont lge, le nombre de contrats et le chiffre daffaires. A partir de ces facteurs, les clients sont rangs dans neuf sous-classes. Cest lors de cette phase que le ou les algorithmes de calcul seront choisit. Dans notre exemple, un rseau de neurone a t construit afin de prdire la classe dappartenance des clients, puis cette information a t utilis dans un arbre de dcision pour une meilleure formalisation.

1.4 EVALUATION DU RSULTAT


Lvaluation du rsultat permet destimer la qualit du modle, elle est gnralement qualitative (facilit de comprhension du rsultat) et quantitative (intervalle de confiance).

1.5 INTGRATION DE LA CONNAISSANCE


Lintgration de la connaissance consiste implanter le modle ou ses rsultats dans le systme informatique de lentreprise. Cest de plus loccasion, pour faire le bilan des tapes prcdentes, qui ont pu faire apparatre certains points amliorer, qualit des donnes, collecte des donnes

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 207

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 CHOISIR LE BON OUTIL


Selon le problme pos, il faut choisir la technique ou les techniques qui sappliquent aux taches dsires. Le tableau ci-dessous prsente quelles techniques traitent quelles taches. Regrou pement par similitu de

Classific ation

Estimati on

Prdicti on

Analyse des clusters

Descript ion

Statistiques normales Analyse du panier de la mnagre Raisonnement bas sur la mmoire Algorithmes gntiques Dtection de clusters Analyse des liens Arbres de dcision Rseaux de neurones

Tableau 56 : choisir le bon outil de data mining

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 208

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2.1 CARACTRISTIQUES INFORMATIQUES


Un outil de Data Mining doit : Permettre des connexions aux bases de donnes afin de simplifier les manipulations de donnes. Etre performant, cest dire la prcision et la rapidit des modles. Permettre des interfaces des requteurs ou des outils OLAP, afin de visualiser les donnes sans manipulations.

Plus de la moiti des entreprises amricaines ont achet un outil de datamining en 1997 (source IDC)

1.1 GAMMES DE PRIX ET DE PUISSANCE


Le tableau ci-dessous prsente les produits existants sur le march en fonction de quatre critres, les comptences requises, les techniques de modlisation, le matriel ncessaire et le prix.

S im ples 1 MF

T echniques de m odlisation C om plexes G ros Intelligent serveurs M iner D ecisio n S A S S eries M ineset

1 50 K F

4T hought C lem entin e K n ow led ge S eeker D atam ind P redict A lice S cenario U tilisateur SPSS

5 KF

C om ptences requises

PC E xpert

Graphique 7 : march des logiciels de data mining

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 209

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1.2 ADQUATION DE LOUTIL


Loutil doit tre adapt
La quantit de donnes, La nature des donnes, Nombre de relations, La nature des relations.

1.3 NIVEAU DE COMPTENCE


Le tableau ci-dessous classe les techniques par facilit de comprhension, facilit dapprentissage, application, gnralit, utilit et disponibilit.
Facilit de Facilit Comprhension Apprentissage Statistiques Analyse du panier de la mnagre Raisonnement bas sur la mmoire Algorithmes gntiques Dtection des clusters Rseaux baysiens Arbres de dcision Rseaux de neurones B A ABB+ AA+ CB A B CB+ C B+ BFacilit Application B A+ B AAB A+ AGnralit B D AB+ AD A A Utilit B B AC BB A A Disponibilit A+ B C C B C+ B+ A

Tableau 57 : niveau de comptence selon les techniques de data mining

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 210

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 DATA MINING ET ETHIQUE


Il serait difficile de terminer cet expos sur le data mining sans parler des problmes d'thique. En France, la loi du 24 Janvier 1978 oblige toute personne enregistrant des donnes sur les individus en faire une dclaration pralable auprs de la Commission Nationale Informatique et Liberts (CNIL). Celle-ci met un avis sur l'opportunit et la confidentialit de l'enregistrement de ces donnes. Les personnes concernes ont, quant elles, un droit de consultation et de correction sur les informations mmorises. Cette loi prsente l'avantage de prserver l'intimit des individus, l o les techniques de data mining veulent aller dans le sens oppos ! Cependant, le dveloppement d'Internet et son utilisation croissante des fins commerciales (et non plus universitaires comme au dbut) risque de bouleverser les rgles. Ce rseau est international et il semble difficile de mettre au point une lgislation commune dans les annes venir. De plus, ces techniques sont rcentes et en France, la technique prcde toujours le droit. Nous sommes donc loin de prserver l'intimit des individus dans le domaine lgislatif. Quelques socits se constituent dj des fichiers d'individus, en mmorisant leurs gots, budgets, situations, etc Elles adressent des listes non anonymes de 100 200 questions et, en change de la rponse, proposent des remises sur des achats de produits courants. Elles mettent ensuite disposition la vente ces fichiers. Ceux qui les remplissent sont-ils conscients de l'utilisation qui en sera faite ? Quelle pourrait tre l'utilisation politique de ces donnes ? Les clients sont classifis par des techniques de data mining mais celles-ci ne sont pas fiables 100 %, alors quelles seront les consquences pour les individus mal classs ? Etant donne l'omniprsence de l'informatique dans tous les domaines, quel est le niveau acceptable qu'une socit commerciale ne doit pas franchir pour respecter la vie prive des individus ? Peut-on recueillir des informations prives votre insu ? Evidemment je laisse chacun le soin de fournir ses propres rponses, mais il est probable que ces questions se poseront. Aux Etats-Unis, suite plusieurs incidents, une entreprise trop entreprenante et investigatrice a t oblige de dtruire une partie de ses fichiers sous la pression de diverses socits de dfense des consommateurs. La difficult sera de trouver le compromis entre ces problmes et la demande d'individualisation des utilisateurs. La mise en uvre du data mining posera sans aucun doute des problmes d'thique, difficiles rsoudre dans un contexte mondial.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 211

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

3 OUVERTURE INTERNET
Internet, et son petit frre lchelle de lentreprise intranet, deviennent aujourdhui des lments incontournables du systme dinformation. Le succs rcent de cette technologie relativement ancienne est du lapparition du World Wide Web (WWW) en 1989, permettant un utilisateur daccder au rseau Internet travers un navigateur (browser). Ce dernier lui permet de visualiser les informations sous une forme ergonomique, sans avoir besoin de connaissances en informatique. Les pages visualises ne sont pas stockes sur le poste client mais sont envoyes, la demande, par un serveur Web. Elles sont crites en langage HTML (Hyper Text Markup Langage) et contiennent du texte format, des liens vers dautres documents ou dautres parties de la page prsente et des images.

3.1 ACCS DES PAGES STATIQUES


Affichage de rapports statiques. Loutil daide la dcision doit permettre de gnrer les rapports sous une forme HTML, afin de les visualiser depuis un navigateur et de les mettre disposition des autres utilisateurs, par exemple sur un serveur dentreprise, Intranet. Les pages dfinies sont alors des pages statiques, contenant la fois la prsentation et les donnes et non mises jour dynamiquement. Afin de prsenter aux utilisateurs des informations rcentes, loutil doit permettre de rgnrer automatiquement les rapports intervalles rguliers (par exemple tous les jours) ou aprs chaque chargement de donnes dans le Data Warehouse. Automatisme du lien entre loutil daide la dcision et le serveur Web. Le serveur Web devient ici un serveur dentreprise, permettant simplement de stocker des documents et de les mettre la disposition de toute personne possdant un navigateur Internet et ayant le droit daccder ces pages. Pour que cette solution soit viable, il faut que loutil soit capable de mettre automatiquement les pages HTML disposition sur le serveur Web. Mme si elle apparat sommaire, cette fonctionnalit peut tre assez intressante. Par exemple, dans le cadre dune entreprise et dun rseau intranet, les rapports lmentaires peuvent tre mis la disposition de lensemble des utilisateurs qui nont ainsi pas matriser et employer un outil daide la dcision pour accder aux informations qui les intressent. Mais, au del de ces fonctionnalits statiques, il est galement ncessaire daccder directement aux donnes travers le navigateur et de gnrer des pages HTML dynamiquement, la demande de lutilisateur.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 212

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

3.2 ACCS DES PAGES DYNAMIQUES


Au del de lenvoi de pages statiques, le serveur Web est aujourdhui capable de crer dynamiquement des pages, la demande de lutilisateur. Ceci peut se faire travers des scripts CGI (Common Gateway Interface). Ils vont alors se charger dinterroger la base de donnes. Des interfaces plus volues sont proposes par Netscape avec NSAPI et par Microsoft avec ISAPI. Elles sont plus performantes et, contrairement CGI, ne ncessitent pas la cration dun processus spar chaque excution de script. Par exemple, ISAPI fait appel des DLLs et non des excutables. Plus performantes, elles sont cependant moins fiables car un problme survenant lors de lexcution dun script risque de provoquer larrt du processus qui est alors galement celui du serveur Web (on parle de dmon HTTP). Dautre part, le langage Javascript permet de joindre des programmes des pages HTML, afin de soulager le serveur et dexcuter certains programmes au niveau client. Il peut sagir, par exemple, de programmes permettant de contrler si lutilisateur a bien renseign tous les champs obligatoires dans un formulaire, avant de lenvoyer vers le serveur, afin dviter des aller et retours inutiles. Enfin, le langage Java permet de crer de petites applications (appeles des applets) qui pourront tre charges directement sur le poste client et excutes partir du navigateur, il faut pour cela que ce dernier soit compatible Java. Au del du simple partage de rapports, la gnration de pages dynamiques est une caractristique indispensable. Lutilisateur doit pouvoir formuler ses requtes et rcuprer les rsultats travers son navigateur Internet. Dautre part, il est ncessaire de lui laisser manipuler les donnes, par exemple dans le cas doutils permettant deffectuer de lanalyse multidimensionnelle, de naviguer dans les donnes. Au del dapplications cl en main mises la disposition de lutilisateur et lui permettant de manipuler les donnes dans le cadre qui lui a t imparti, ces outils devraient permettre lutilisateur de dfinir ses requtes aussi librement quil le fait avec loutil, de mme pour la valorisation des rsultats. Ceci permet alors de mettre la disposition de lensemble des utilisateurs les donnes de lentreprise, vite les cots et les efforts dinstallation et de mise niveau des produits, lapplication tant alors base sur le serveur.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 213

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

3.3 LE WEB ET L'AIDE LA DCISION


Selon le Data Warehouse Institute, 82% des accs un Data Warehouse s'effectuent aujourd'hui en Client/Serveur "classique", 38% par un intranet et 8% via l'Internet. Ceci confirme que le mariage entre le Web et l'aide la dcision est non seulement souhaitable, car il permet d'largir la cible des utilisateurs concerns avec une problmatique de dploiement amoindrie, mais aussi oprationnel ds aujourd'hui, mme si la puissance fonctionnelle et la qualit de service du Web sont plus faibles qu'en Client/Serveur. L'analyse de ces chiffres indique galement la complmentarit du Client/Serveur et du Web, le premier tant a priori mieux adapt aux utilisations intensives et le second pour toute autre utilisation que le Client/Serveur ne peut satisfaire pour des raisons de cots de dploiement ou d'insuffisante homognit de l'infrastructure. Requteurs et outils OLAP diffrent dans leur capacit s'intgrer au monde du Web. OLAP s'adapte naturellement au Web par la structure de navigation prdfinie qu'il propose, principe conforme au concept hypertexte du Web. Malgr tout, les versions Web existant ce jour reprsentent encore une lgre rgression fonctionnelle par rapport leur version Client/serveur, mais ces diffrences s'amenuisent de jour en jour. Ct requteur, l'intgration au Web est plus complexe raliser : laissant beaucoup d'autonomie l'utilisateur, ces outils disposent d'une interface cliente assez sophistique. HTML montre alors ses limites fonctionnelles du ct de l'interface homme/machine et beaucoup d'diteurs proposent de ce fait des versions brides de leur outil, pour l'excution de requtes prdfinies. Pour aller au del, il est souhaitable de rapatrier sur le poste client une partie de l'outil, par des mcanismes comme Java, les plug-ins, ou encore Active X. Certains diteurs, l'instar de Brio qui a choisi le plug-in, proposent ces architectures ou sont en passe de le faire. Mais, chacune d'entre elle n'est pas sans inconvnient, en terme de consommation de bande passante et d'absence d'offre oprationnelle ct Java et de problmes de dploiement qui subsistent du fait de la recopie de code ct client pour les plug-ins ou Active X.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 214

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

4 CONCLUSION 4.1 LES OUTILS DAIDE LA DCISION


Notre tude, dans chacune de ses parties, nous a amens isoler chaque technique de laide la dcision afin den montrer ses caractristiques, sa mise en uvre, son apport au processus de prise de dcision. Ainsi, en conclusion, nous rassemblons les apports de ces techniques. Le data warehouse permet au dcideur de travailler dans un environnement informationnel, rfrenc, homogne, historis. Cette technique laffranchit des problmes lis lhtrognit des systmes informatiques, lhtrognit des diffrentes dfinitions de donnes issues de lhistorique de lorganisation. LAnalyse multidimensionnelle permet dextraire du data warehouse, une connaissance quantitative de lactivit de lorganisation selon les dimensions ou les aspects qui proccupent le dcideur un instant donn. Lexplication dun rsultat, un niveau dagrgation donn, sexplique par les rsultats du niveau dagrgation infrieur. Le Data Mining permet dextraire du Data Warehouse deux types de connaissances : lune, explicative des rsultats obtenus par lanalyse multidimensionnelle ou explicative dhypothses relatives au contenu informationnel du data warehouse, lautre, nouvelle, porteuse ventuellement de nouvelles possibilits daction. Le Tableau de Bord a t juste voqu; il est la frontire du Data*. Cet outil se retrouve dans tous les systmes de Pilotage ( Oprationnel ou Dcisionnel ). warehouse. Toutefois, applique sur un data warehouse, la fonction Indicateur du tableau de bord peut intgrer un ventail plus riche de variables ou tre rapproche dun rfrentiel plus large dans le temps. Aujourdhui, ces techniques font lactualit des presses spcialises; spcialise en informatique, bien sr, mais aussi dans les rubriques Informatiques des presses spcifiques chaque type dactivit. Les applications dcisionnelles dans le Marketing nourrissent la majorit de ces articles de presse.

4.2 LES PERSPECTIVES POUR LENTREPRISE


Reconsidrant lentreprise dans son environnement ( cf schma des Forces de M.Porter cidessous ), nous percevons les nouvelles possibilits dalimentation des systmes dcisionnels partir des data warehouse de fournisseurs ou de clients de diffrents observatoires et groupements professionnels dadministrations de rediffusion dinformation auprs de ces mmes agents qui ont aliment le DW de lentreprise
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 215

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

de connexion des data warehouse entre eux sous forme dun rseau de data warehouse rpartis la surface de la terre, disposant dun seul dictionnaire de donnes et de mta-donnes. ( cas dune multinationale ou par exemple un organisme de lONU). de convergence dun rseau de data warehouse rpartis la surface de la terre vers un data warehouse Central .
Concurrence Pays Etranger France Fournisseurs Produits de Substitution Nouveaux Entrants Concurrence Entreprise Clients Filire

Insee Consommation Dmographique C.C.I. Social Sant Economique Observatoire Environnement

Secteurs d'Activits

Nous pouvons penser que les perspectives dchanges dinformation ou de connexion entre les systmes dcisionnels au travers du WEB vont sauto-gnrer : cest dire, entrer dans le processus dinterconnexion gnrera de nouvelles opportunits stratgiques ( alliances, rachat, rseau dentreprises) qui, ralises, amneront de nouvelles architectures dcisionnelles et permettront douvrir dautres perspectives.

1.1 CONCLUSION
De ces possibilits, nous navons pas aujourdhui suffisamment dexpriences connues , si toutefois, il en existe. Ainsi, ce stade de la rflexion, nous passons le tmoin de ce travail aux prochains auditeurs de valeur C en informatique dcisionnelle. A eux, de rendre compte, danalyser et dexpliquer ce dont ils seront tmoins dans les perspectives WEB-Dcisionnel que nous commenons entrevoir ce jour.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 216

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 GLOSSAIRE
Agent intelligent (Knowbot)

Un agent est une entit logicielle capable d'agir sur elle-mme et sur son environnement. Il dispose d'une reprsentation partielle de cet environnement et peut communiquer avec d'autres agents. Il poursuit un objectif individuel et son comportement est la consquence de ses observations, de ses comptences, et des interactions qu'il peut avoir avec d'autres agents et son environnement. Mcanisme se dclenchant automatiquement et envoyant des informations une application (alerteurs des SGBD relationnels), ou une information visuelle lutilisateur (alerteurs dans les outils clients du Data Warehouse). Interface de Programmation d'Applications. Interface permettant un langage de programmation d'accder un service de manire programme. On parle de l'API de Windows ou de celle de SQL Server. L'API de Windows va aider les applications grer tous les lments graphiques Windows (fentres, contrles, menus).

Alerteur

API Application Programming Interface

Arbre de dcision

Technique visuelle permettant de diviser des donnes en groupes bass sur les valeurs des variables. Elle permet de dterminer les variables significatives pour une variable donne. Base dont les donnes sont disperses sciemment (distribues) sur plusieurs serveurs lis par un rseau. Une application cliente peut avoir besoin d'accder aux donnes de X serveurs simultanment. On dit aussi Base Rpartie lorsque c'est le SGBD qui pilote les accs

Base de donnes distribue

Base de donnes locale Batch

Base de donne situe sur le poste client, contenant des donnes propres lutilisateur, voire des donnes partages rpliques. Dans les outils de Data Mining ou dinfocentre, le batch permet dexplorer de grandes masses de donnes (requtes lourdes) des heures creuses, sans trop solliciter le poste de lutilisateur, voire planifier lexcution des requtes (module souvent appel scheduler). Dans certains outils clients du Data Warehouse, cest la structure permettant lutilisateur de travailler sur une vue logique et oriente mtier des donnes quil souhaite visualiser. Valeur prise par une variable discrte. Deux types de classification existent : soit classer des lments dans des classes connues (par exemple
Valeur C : Ingnierie des systmes dcisionnels Page 217

Catalogue

Catgorie Classification
C:\CNAM\Data.doc

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

les bons et les mauvais clients). On parlera aussi dapprentissage supervis. soit de regrouper les lments ayant des comportements similaires dans des classes, inconnues au dpart. On parlera alors de clustering, de segmentation ou dapprentissage non supervis.
Client

Poste de travail Utilisateur : machine dporte qui supporte le dialogue interactif avec l'utilisateur ou les applications, mais aussi les outils de prsentation, dinfocentre et de dveloppement. Cf. classification. variable pouvant prendre un nombre illimit de valeurs (par exemple, un rel). Dfinition un peu floue car rcupre par beaucoup dditeurs doutils daide la dcision. A lorigine, le data mining correspondait toutes les technologies avances susceptibles danalyser linformation dun Data Warehouse pour en tirer des tendances, pour segmenter linformations, ou pour trouver des corrlations dans les donnes. Aujourdhui, le terme a tendance caractriser tous les outils daide la dcision, le " mineur " tant soit loutil lui-mme soit lutilisateur. Aussi connu sous le nom de KDD (Knowledge Discovery Data), les outils de data mining permettent dextraire de la connaissance des donnes en dcouvrant des modles, des rgles dans le volume dinformation prsent dans les entreprises. Possibilit donne lutilisateur de naviguer de manire ergonomique et intuitive dans un modle multidimensionnel. Entrept de donnes . Base de donnes spcifique au monde dcisionnel et destine principalement analyser les leviers business potentiels. Daprs Bill Inmon, un Data Warehouse est intgr, orient sujet et contient des donnes non volatiles et historises

Clustering Continue (variable) Data Mining

Data Mining (outils de)

Data Surfing Data Warehouse

Data Warehousing DBA Data Base Administrator

Processus de mise en uvre dun projet de Data Warehouse. Personne garante de la cohrence des donnes, des performances du systme, de sa scurit... Pour les outils disposant dun catalogue, cest le DBA qui le mettra en uvre.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 218

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

DDE Dynamic Data Exchange

Echange Dynamique de donnes. Protocole de Windows et d'OS/2 PM qui tabli un lien permanent entre 2 applications. Par exemple, 'Copier' un tableau Excel, le 'Coller avec Liaison' dans un document Word; Le document sera remis jour ds que le tableau volue. Les 2 applications doivent tre actives en mme temps. Il permet l'envoi de donnes et de commandes d'un logiciel demandeur (client) un logiciel fournissant les services (serveur). Un applicatif client DDE pourra ainsi compltement piloter l'applicatif serveur.

Dcouverte de rgles

Les outils permettant de dcouvrir des rgles vont partir dune hypothse et la tester au travers de requtes et de statistiques puis la modifier en fonction des rsultats. Ces systmes vont scruter la base de donnes, forger des hypothses et, si elles sont vrifies, les remonter lutilisateur. Variable cible de lanalyse de Data Mining, notamment pour les arbres de dcision. Des outils permettent de dtecter sur un ensemble de donnes celles prsentant des dviations par rapport des normes et des indicateurs de rfrence dcrits antrieurement. Axe danalyse associ aux indicateurs ; correspond le plus souvent aux sujets dintrts du Data Warehouse ; exemple : dimension temporelle, dimension client... Variable prenant ses valeurs (cf. catgorie) dans un ensemble limit. Bibliothque de liens dynamiques. Sous Windows, bibliothque de fonctions propres une application. Elles peuvent tre appeles par d'autres applications et sont charges la demande. Dans une structure multidimensionnelle, les donnes creuses sont des intersections de dimensions pour lesquels un fait ne sest pas produit (exemple : pas de vente de produit X la date T) ou nest pas physiquement stock (exemple : pas dagrgations physique associe aux vente de produits par gammes et par mois). 'Tirer et Laisser tomber'. Dans un environnement graphique, consiste 'prendre' un objet en cliquant dessus en maintenant le bouton enfonc, puis le dplacer (Drag) avec la souris jusqu' un autre endroit o, en relchant le bouton, on dpose (Drop) l'objet transport. Mcanisme de navigation dans une structure multidimensionnelle. Il permet danalyser une mme mtrique sur des axes danalyse diffrents (ex : ventes par priode, puis par produit).
Valeur C : Ingnierie des systmes dcisionnels Page 219

Dpendante (variable) Dtection de dviations

Dimension

Discrte (variable) DLL Dynamic Link Library

Donnes creuses

Dragndrop

Drill across

C:\CNAM\Data.doc

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Echantillon

Ensemble de donnes tir, alatoirement ou non, du Data Warehouse et permettant deffectuer des tests et des recherches sur des volumes restreints. Executive Information System (littralement, systme dinformation des cadres). Environnement de prsentation de tableau de bord prsentant de manire synthtique et graphiques les performances dune activit (ex : sant dune entreprise, bilan des ventes...). Les donnes tudies dans un Data Warehouse se dcomposent en lignes et en colonnes. Chacune des lignes reprsente un lment de la base de donnes, un individu. Donne numrique servant de base la dfinition des indicateurs dans un modle multidimensionnel. Attention, ce terme est parfois utilis dans la littrature pour dcrire plus gnralement tout indicateur. Technique consistant prvoir le comportement dune variable par rapport ses attitudes passes. Un algorithme gntique est un algorithme lent, reprsentant les modles comme des gnes et des oprateurs gntiques et les faisant voluer soit par mutation (un gne au hasard est remplac), soit par cross-over (la place de deux sous-arbres est changes). Il est surtout utilis pour optimiser les paramtres associs des outils de prdiction ou de classification. Logiciel permettant un groupe de personnes de mener des actions communes ou synchronises dans un cadre commun. Le groupware est fond sur cinq technologies de base. - la gestion de documents multimdia - le workflow - le courrier lectronique - la gestion de confrences - la planification des runions.

EIS Executive Information Systems

Element

Fait

Forecasting
Gntique (algorithme)

Groupware

GUI Graphical User Interface Htrognit

Interface Graphique pour Utilisateur, ou IHM. Windows, Presentation Manager, X/Motif en sont Caractre dun systme global intgrant plusieurs types de machines ou de SGBD. Dans un monde parfait, le systme htrogne, trs souvent distribu, doit tre transparent pour lutilisateur afin dintgrer automatiquement les systmes existants dune entreprise.
Valeur C : Ingnierie des systmes dcisionnels Page 220

C:\CNAM\Data.doc

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Hypercube Indicateur

Cube n dimensions. Structure sur laquelle repose la plupart des outils multidimensionnels. Information permettant de mesurer la performance de telle ou telle activit de lentreprise (ventes, gestion des stocks...). La plupart du temps, cette information est numrique (ex : chiffre daffaires, quantit en stock...). Mthode consistant tirer une conclusion dune srie de faits. Cette conclusion ne sera jamais sre 100 %. Ensemble de contraintes appliques aux mises jour dune base de donne permettant de garantir la cohrence des donnes. Ces contraintes peuvent tre des listes de valeurs respecter (non nullit et intgrit de domaine) ou bien des liens entre des tables (intgrit rfrentielle). Par exemple, une commande doit forcment rfrencer un client : le numro de client insr dans une ligne de la table commande doit exister dans la table client. Rapprochement entre deux tables par comparaison de valeurs communes, sur la base dun attribut commun. Jointure prservant les lignes dune premire table, mme si lattribut de jointure n'apparat pas dans la seconde. . Type d'interface o une fentre principale (Workplace), dans laquelle sont imbriques, des fentres secondaires gre toutes les actions possibles. Les Gestionnaires de Programme et de Fichiers de Windows en sont des exemples connus. Structure de base assurant les fonctions de communication d'entreprise. Interpersonnelle : communication entre utilisateurs Interapplicative : entre applications Applications groupware : entre groupes de travail

Induction Intgrit

Jointure Jointure externe MDI Multiple Document Interface

Messagerie lectronique (E-mail)

Mta-donnes Mtabase

Donne dcrivant une donne . Ensemble de tables systmes utilises par les SGBD pour stocker la description des objets utilisateurs (tables, vues, droits, procdures stockes, ...) dune base Indicateur. Parmi les indicateurs pertinents, certains distinguent les faits, stocks physiquement dans la base dcisionnelle, des mtriques, drives de ces faits.

Mtrique

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 221

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Middleware

Le logiciel du centre : infrastructure logicielle permettant de rendre larchitecture Client/Serveur la plus transparente possible. Dans un contexte dcisionnel, il est situ entre les outils daide la dcision et la base de donnes dcisionnelle. Un bon middleware permet davoir indpendance entre ces deux types de composants

Modle dimensionnel (ou multidimensionnel)

Technique de modlisation consistant modliser une base dcisionnelle partir de lidentification des faits analyser et des dimensions danalyses qui leur sont associes Technique de modlisation dimensionnelle, consistant crer physiquement ce modle sur une base de donnes relationnelle. Ce modle distingue physiquement les tables de faits des tables de dimensions Technique de modlisation dimensionnelle, drive de la modlisation en toile. Dans ce modle, les tables de dimensions y sont dnormalises, cest dire dnues de redondances. Technique de modlisation consistant modliser une base de donnes en la dcomposant en entit et en relations corrlant ces entits Caractrise larchitecture ncessaire la mise en place dun systme multidimensionnel en sappuyant sur les bases de donnes multidimensionnelles Architecture matrielle faisant collaborer plusieurs processeurs (plusieurs centaines) possdant chacun sa propre mmoire. Base de donnes ddie au dcisionnel, stockant les donnes sous la forme dun tableau multidimensionnel. Ces SGBD sont une alternative aux SGBD relationnels. Voir aussi SIAD Mthode du plus proche voisin utilise pour faire de la classification supervise. Elle consiste examiner les lments, dont la classe est connue, proches de llment dont on veut dterminer la classe. Interface daccs aux SGBD (API + langage SQL) dfinie par Microsoft en 1992 et base sur le standard CLI. Du fait de son succs auprs des utilisateurs et des diteurs, ODBC est devenu un standard de fait. Il permet daccder des SGBD dditeurs diffrents en utilisant la mme interface de programmation. Plusieurs niveaux (Level 1 et Level 2) existent dans lAPI correspondant aux niveaux de fonctionnalits. Caractrise larchitecture ncessaire la mise en place dun systme dinformation dcisionnel. Soppose OLTP (On Line Transaction
Valeur C : Ingnierie des systmes dcisionnels Page 222

Modle en toile

Modle en flocon (ou snowflake)

Modle relationnel

MOLAP Multidimensional On Line Analytical Processing. MPP Massively Parallel Processing Multidimensionnel (SGBD)

Nearest Neighbor (ou Knn)

ODBC Open DataBase Connectivity

OLAP On Line Analytical Processing


C:\CNAM\Data.doc

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Processing), adressant les systmes dinformation transactionnels. OLAP est souvent utilis pour faire rfrence exclusivement aux bases de donnes multidimensionnelles. En effet, le concept a t formalis par le Dr Codd, sous la forme de douze rgles, dcrivant un modle idal danalyse dinformation. Il a t montr depuis quil a t possible de respecter ces rgles indpendamment de la structure de stockage utilise. De plus en plus, le terme est souvent utilis pour dsigner plus gnralement le dcisionnel dans ses aspects techniques.
OLE Object Linking and Embedding

Liaison et incorporation d'objets. Protocole Microsoft qui permet la cration de document composites ou la communication programme entre application (OLE Automation). Un document composite fait rfrence aux diverses applications qui ont permis de composer le document. Il est possible de visualiser alors des documents sans possder le logiciel qui les a engendrs. L'optimisation des questions est un aspect tout fait central des systmes relationnels; La requte SQL est transforme en une succession d'oprateurs relationnels (restriction, projection, jointure, union, ...); Loptimiseur est un composant logiciel charg de choisir l'ordre dans lequel ces oprations vont tre excutes. 1. Matriel dinterconnexion de rseaux locaux employant des protocoles de haut niveau diffrents. 2. Logiciel de traduction situ sur un serveur et permettant deux applications dinterfaces diffrentes de dialoguer.

Optimiseur

Passerelle

Passthru (mode)

Mode de communication particulier offert par certaines API qui permettent de passer le SQL directement au SGBD cible sans tenter de lanalyser. Ce mode permet au dveloppeur dapplications dutiliser les spcificits des SGBD. Poste de travail Utilisateur : machine dporte qui supporte le dialogue interactif avec l'utilisateur ou les applications, mais aussi les outils de prsentation, dinfocentre et de dveloppement. Modle de Client/Serveur. La partie concernant la gestion des donnes est assure par la composante serveur. La partie cliente prend en charge la prsentation, mais aussi la totalit de la logique applicative. Dans ce modle, l'utilisation d'un systme de gestion de base de donnes relationnelle scuris, permettant de prserver la cohrence, la permanence et l'intgrit des bases de donnes, est ncessaire. L'inconvnient de ce modle est principalement qu'il ncessite des flux levs sur le rseau (ensemble de requtes SQL et rcupration de rsultats de celles-ci). Par ailleurs, il impose de dcentraliser une partie importante de l'application sur le poste client et par consquent celui-ci devra tre puissant.
Valeur C : Ingnierie des systmes dcisionnels Page 223

Poste Client

RDA Remote Data management

C:\CNAM\Data.doc

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Rfrentiel

Structure de stockage des mta-donnes. Un rfrentiel fdre ces mta-donnes, contrairement aux catalogues, qui sont en gnral spcifiques chaque outil. On distingue le " Data Warehouse Repository ", fdrant les mta-donnes de la base dcisionnelle, de " lEnterprise Repository ", qui inclue dans la thorie toutes les mtadonnes de lentreprise, aussi bien transactionnelles que dcisionnelles Relation de cause effet entre des variables. Ainsi, la modification dune variable A pourra entraner la modification dune variable B. C'est une demande envoye au gestionnaire de Base de Donnes serveur. Si celui-ci permet la gestion des donnes, le langage utilis est le SQL. Dans une contexte dinfocentre, l'excution des questions sur un serveur est le plus souvent interprt. Outil permettant un utilisateur de gnrer des requtes SQL et de les envoyer un serveur de donnes relationnel. Ensemble des moyens qui permettent des ordinateurs de communiquer entre eux, quelle que soit leur localisation gographique. Dans le cas o le dialogue entre le client et le serveur concernerait laccs aux donnes, l'information transitant sur le rseau est la requte SQL, destine au SGBDR, qui retourne les tuples rsultats. Processus opaque permettant partir de valeurs en entre de dcouvrir une valeur en sortie. Les rseaux neuronaux sont constitus de neurones, aussi appels nuds, et dinterconnexions entre ces nuds, liens permettant denvoyer des signaux de neurone neurone. Un rseau de neurone a pour caractristique de pouvoir apprendre et mettre profit son exprience pour ajuster le modle trouv en fonction, par exemple, de larrive de nouveaux lments.

Relation causale Requte

Requteur Rseau

Rseau neuronal

ROLAP Relational On Line Analytical Processing Segmentation Serveur

Caractrise larchitecture ncessaire la mise en place dun systme multidimensionnel en sappuyant sur les technologies relationnelles. Cf. classification Composant logiciel et/ou matriel assurant la disponibilit, la distribution, le service transactionnel de l'information. Il gre le partage, la scurit et la cohrence de l'information. Il offre ses services des Clients avec lesquels il communique par le Rseau.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 224

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

SGBDR Systme de Gestion de Base de Donnes Relationnelle

On dialogue avec le SGBDR grce des requtes crites en SQL, langage assez bien standardis. Les SGBDR (certains disent Serveur de bases de donnes) les plus avancs disposent de mcanismes de gestion des contraintes d'intgrit appels les Triggers, et aussi de capacit de traitements lis aux donnes: les Procdures Stockes. Environnement permettant de stocker et de structurer linformation dcisionnel. Ce terme est souvent utilis pour identifier les bases de donnes multidimensionnelles. Larrive des concepts de Data Warehouse fait perdre de limportance ce terme, qui fait fortement rfrence un type spcifique de technologie (et qui na pas dquivalent en anglais). Architecture matrielle faisant collaborer plusieurs processeurs (quelques dizaines) sur une seule mmoire partage. Langage de Requte Structur. Le langage SQL est un standard dfini par l'ANSI et l'ISO. Il est driv de l'algbre relationnel et de SEQUEL (System R74). Il constitue aujourd'hui le plus petit commun dnominateur des langages du march. Les techniques statistiques sont des techniques mathmatiques permettant de recueillir et danalyser des donnes. De faon gnrale, un systme rparti (ou distribu) est un ensemble de machines qui peuvent changer des informations par lintermdiaire dun rseau de communication. De plus, une architecture rpartie (ou distribue) se dfinit par un ensemble de stations de travail utilisables simultanment par des usagers. Il nexiste quun seul terme anglais pour dfinir ce type de systme : " distributed ".

SIAD Systme Interactif dAide la Dcision

SMP

Symmetric Multi
Processing SQL Structured Query Language

Statistiques Systme distribu (ou rparti) (en anglais, distributed)

TCP/IP

Transmission Control Protocol/Internet Protocol: Protocole de communication permettant linterconnexion de rseaux htrognes. TCP/IP a t dfini pour le compte de DOD (Department Of Defense) dans les annes 1970. Il correspond aux couches paquets (3) et transport (4) de l'OSI. TCP/IP est devenu un standard de fait, supports par les rseaux locaux (Lan Manager, Netware), permettant daccder aux machines Unix, et aux systmes propritaires. TCP, service de transport orient connexion, correspond aux niveaux 4 et 5 du modle OSI. IP, assure linterconnexion et correspond au niveau 3.

Thta-jointure
C:\CNAM\Data.doc

Jointure complexe dont loprateur de comparaison nest pas lgalit.


Valeur C : Ingnierie des systmes dcisionnels Page 225

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Variable

Les donnes tudies dans un Data Warehouse se dcomposent en lignes et en colonnes. Chacune des colonne reprsente une variable, une proprit des lments considrs. Outil permettant de visualiser de manire graphique les relations entre les donnes.

Visualisation (outil de)

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 226

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

1 INDEX

1
12 Rgles dOLAP99

A
Abduction133 Accs84 Acquisition83 Acte conomique53 Activits56 ADN177 Agent intelligent185 Agent ngociateur186 Agent vendeur186 Agglomration172 Agrgation107, 172 Aide la dcision40 Algorithme de rtropropagation204 Algorithmes gntiques156, 177 Amplitude131 Analyse des clusters137 Analyse des liens155 Analyse du panier de la mnagre154, 157 Analyse pralable130 Arbre de dcision193 Arbres de dcision135, 155 Architecture78 Articles virtuels161 Axe105, 106, 107, 108, 118

B
Base de comprhension55 Base de faits54 Bilan130

C
C4.5194 CART194 Case Based Reasoning165 Causalit132 CBR165 Cellule106 Cellules creuses109 Cercle vertueux140 CHAID194 Chromosomes178 Classification135 Clusterisation135, 137 Clusters171 CNIL213 Coefficient de corrlation132 Combinaison168 Conception86 Confusion132 Connaissances (Recherche)131 Conseiller lectronique186 Construction82 Contenu informatif53 Corrlation132 Couche cache201 Covariance132

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 227

Conservatoire National des Arts et Mtiers de Lille


Croisement181 Cross-over181

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

D
Data Mart96 Data mining accs dcisionnel84 dfinition129 mthodologie141 prsentation128 statistiques130 tches135 techniques154 Data Surfing109 Data Warehouse11 Dcision25 Dcision satisfaisante37 Dcouverte de connaissances dirige152 Dcouverte de connaissances non dirige146 Dduction134 Descendants179 Description135, 137 Dtection automatique de clusters154 Diagnostic externe56 Diagnostic interne58 Dimension100, 106, 107, 108, 109, 112 Dissociation161 Distance167 Distance interdcile131 Distance interquartile131 Donne72, 88 Donne agrge77 Donne dtaille76 Donne historise75, 78 Donnes (prparer)143 Drill up and Down100, 105, 108, 109 Droit213

E
Ecart absolu moyen131 Ecart type131 Echelle de proccupation27 EIS62 Entreprise12 Environnement21 Espace de rsolution34 Estimation135, 136 Ethique187, 213 Etude stratgique87 Evaluation145, 153, 178 Evaluer150, 162, 176

F
Fitness179 Fonction de comptition203 Fonction de normalisation203 Fonction de sommation203 Fonction de transfert203 Frquence162

G
Groupement par similitudes135, 136

H
Hasard132 Heuristique18

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 228

Conservatoire National des Arts et Mtiers de Lille


Hirarchie105, 106, 108, 112 Holland177 Hybridation181 Hypercube99, 102, 105, 106, 109, 111

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

I
Indicateur105, 107, 118 Indicateurs Dispersion131 Tendance centrale131 Induction134 Infrence46, 133 Infocentre70, 80 Initiative83, 87 Interactif40 Internet185 Inversion181

K
Khi 2132 K-moyennes171 Knowbot185

M
Mdiane131 Mtadonne77, 91 Mta-donne117, 119 Mthodes traditionnelles131 Mtrique107 Modle de donne92 Modle en toile110, 112, 113, 119 Modle en flocon110, 112, 119 Modle normalis110, 111, 112 Modlisation33 Modlisation dimensionnelle112 Modlisation relationnelle111 MOLAP113, 118, 119, 120, 156 Moyenne131 Mutation181

N
Navigation102, 105, 108, 120 Neurone formel200 Niveau de confiance162 Niveau de support163 Niveaux de reprsentation32

O
OLAP99, 100, 112, 117, 118, 156 Optimisation135 Optimisation137 Outils210 Outils dcisionnels65

P
Paradigme STI18 Plan daction87 Planification33 Prdicats47 Prdiction135, 136 Probabilit dapparition189 Problmatique12 Problme16 Processus de dcision28

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 229

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining


R

Version 1.1
Le 15 Juin 1998

Raisonnement bas sur la mmoire154, 165 Rationalit limite36 Rationalit procdurale37 RBM154, 165 Recherche de connaissances131 Recherche oprationnelle129 Rgle dactivation201 Rgle dapprentissage202 Rgles159 Regroupement par similitudes136 Rponse commune132 Rseau Baysien188 Rseau de neurones200 Rseaux de neurones155 ROLAP113, 118, 119, 120, 156

S
Segmentation135, 137 Slection180 Selective pressure180 Sries temporelles162 SGBD42 SIAD39 Slice and Dice100, 105, 108, 109 Snowflake110 Sparcity109 Star110 Statistiques130, 131 STI18 Stockage84 Stratgie56 Structure76 Systme dcisionnel15, 50 Systme expert43 Systme oprationnel72

T
Table de faits107, 112, 113 Tableau de bord62 Tableau des cooccurrences158 Tableur41 Tches du data mining135 TAEL156 Taux d'amlioration163 Taux de confiance162 Taux de support163 Taxinomie161 Techniques de data mining210 Test d'hypothses141 Thorie des graphes188 Traitement analytique en ligne156

V
Valeurs manquantes130 Variable107

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 230

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

2 TABLES 2.1 TABLE DES FIGURES


Figure 1 : les Niveaux de proccupation du dcideur (selon Thomas Gilbert)......................13 Figure 2 : comment traverser ?..............................................................................................15 Figure 3 : le Systme de Traitement de lInformation...........................................................18 Figure 4 : structure du Systme dcisionnel (1).....................................................................20 Figure 5 : structure du Systme dcisionnel (2).....................................................................21 Figure 6 : structure du Systme dcisionnel (3).....................................................................23 Figure 7 : chelle de Normalisation des dcisions.................................................................25 Figure 8 : niveaux de proccupations et niveau dagrgation................................................26 Figure 9 : chelle de normalisation des dcisions..................................................................29 Figure 10 : structuration & normalisation.............................................................................30 Figure 11 : fonctionnement dun systme expert...................................................................45 Figure 12 : diffrentes formes-objets relies entre elles dans un rseau smantique.............46 Figure 13 : le systme dcisionnel.........................................................................................50 Figure 14 : structure de la machine........................................................................................51 Figure 15 : chelles lies l'chelle des niveaux de proccupations (1)...............................52 Figure 16 : chelles lies l'chelle des niveaux de proccupations (2)...............................52 Figure 17 : modle des donnes simplifi du contenu informatif de base du systme dcisionnel.....................................................................................................................55 Figure 18 : l'entreprise, les 5 Forces de Porter, lenvironnement..........................................57 Figure 19 : diffrenciation par la technologie et la baisse des cots......................................58 Figure 20 : approche centre sur le prix................................................................................59 Figure 21 : structure de la machine........................................................................................63 Figure 22 : positionnement du Data Warehouse....................................................................64 Figure 23 : positionnement de lAnalyse Multidimensionnelle.............................................66 Figure 24 : positionnement du Data Mining..........................................................................68 Figure 25 : un graphe...........................................................................................................188 Figure 26 : graphe connexe..................................................................................................188 Figure 27 : graphe totalement connexe................................................................................189 Figure 28 : graphe pondr..................................................................................................189 Figure 29 : graphe orient....................................................................................................189 Figure 30 : structure d'un arbre de dcision.........................................................................193 Figure 31 : construction de l'arbre.......................................................................................194 Figure 32 : le neurone formel..............................................................................................200 Figure 33 : activation du neurone........................................................................................201 Figure 34 : les diffrentes couches du rseau de neurone....................................................201 Figure 35 : synoptique du rseau de neurones.....................................................................204 Figure 35 : synoptique du rseau de neurones

2.2 TABLE DES GRAPHIQUES


Graphique 1 : graphe des dcisions de niveau de proccupation stratgique.......................60
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 231

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Graphique Graphique Graphique Graphique Graphique Graphique Graphique

2 : dterminer le volume optimal d'apprentissage.............................................149 3 : vente de voitures en fonction du nombre d'enfants et de l'ge du client......166 4 : positionnement de trois nouveaux clients....................................................167 5 : rpartition des descendants sur un cercle.....................................................179 6 : processus de slection des descendants.......................................................180 7 : march des logiciels de data mining............................................................211 7 : march des logiciels de data mining

2.3 TABLES DES TABLEAUX


Tableau 1 : les secteurs institutionnels..................................................................................11 Tableau 2 : exemple de dfi relever par chaque type dorganisation..................................12 Tableau 3 : tableau de dcisions normalises........................................................................26 Tableau 4 : les niveaux de reprsentation..............................................................................32 Tableau 5 : Modle-Action-Equilibration..............................................................................33 Tableau 6 : niveaux de Proccupation et rationalit Limite.................................................38 Tableau 7 : positionnement du Data Warehouse...................................................................65 Tableau 8 : diffrences entre donnes du systme de production et donnes dcisionnelles.72 Tableau 9 : le data warehouse, point focal de l'informatique dcisionnelle...........................73 Tableau 10 : diffrences entre systme de production et data warehouse.............................75 Tableau 11 : structure d'un data warehouse...........................................................................76 Tableau 12 : tableau de synthse des architectures de data warehouse.................................79 Tableau 13 : tableau de comparaison entre infocentre et Data Warehouse...........................81 Tableau 14 : cadre gnral dun Data Warehouse.................................................................82 Tableau 15 : data warehouse - points de vue pour les utilisateurs.........................................84 Tableau 16 : dfinition dune mta-donne...........................................................................91 Tableau 17 : interactions des donnes...................................................................................92 Tableau 18 : finalits des data marts et data warehouse........................................................96 Tableau 19 : les sept mythes du data mart.............................................................................98 Tableau 20 : Ventilation des Rgles de Codd......................................................................102 Tableau 21 : reprsentation sous forme de cube..................................................................104 Tableau 22 : reprsentation pyramidale...............................................................................105 Tableau 23 : exemple de hirarchies multiples....................................................................107 Tableau 24 : exemple de modle en toile...........................................................................112 Tableau 25 : exemple de tables agrges.............................................................................114 Tableau 26 : exemple de tables partitionnes......................................................................115 Tableau 27 : architecture dun produit Molap (EDS)..........................................................117 Tableau 28 : architecture dun produit Rolap (EDS)...........................................................118 Tableau 29 : principaux outils MOLAP et ROLAP.............................................................119 Tableau 30 : les besoins et les outils du Data Warehouse (EDS)........................................120 Tableau 31 : principaux outils dextraction et de nettoyage................................................123 Tableau 32 : rpartition du revenu du march du Data Warehouse.....................................124 Tableau 33 : explications d'un fort taux de corrlation........................................................131 Tableau 34 : exemples d'induction......................................................................................133 Tableau 35 : le cercle vertueux du data mining...................................................................139 Tableau 36 : causes possibles de clture d'un compte bancaire...........................................141 Tableau 37 : liste des achats par client pour l'analyse du panier de la mnagre.................157
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 232

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Tableau 38 : tableau des cooccurrences...............................................................................157 Tableau 39 : rappel du tableau des cooccurrences...............................................................158 Tableau 40 : ventes de voitures en fonction de l'ge et du nombre d'enfants......................166 Tableau 41 : rponse des clients une offre en fonction de l'ge, du sexe et du salaire......168 Tableau 42 : calcul des distances.........................................................................................169 Tableau 43 : tableau de synthse utilisant la fonction de combinaison...............................169 Tableau 44 : calcul des distances entre chaque graine et chaque point................................172 Tableau 45 : calcul des distances entre chaque point et les nouvelles graines (centrodes).173 Tableau 46 : tableau des distances entre chaque point.........................................................174 Tableau 47 : premires agglomrations...............................................................................174 Tableau 48 : calcul des distances avec les nouvelles valeurs...............................................175 Tableau 49 : deuxime et troisime niveau d'agrgation.....................................................175 Tableau 50 : fin de la construction de l'arbre.......................................................................175 Tableau 51 : valuation des chromosomes..........................................................................179 Tableau 52 : hybridation de deux chromosomes.................................................................181 Tableau 53 : mutation d'un chromosome.............................................................................181 Tableau 54 : inversion dans un chromosome.......................................................................181 Tableau 55 : synoptique du processus de mise en uvre des algorithmes gntiques........182 Tableau 56 : choisir le bon outil de data mining..................................................................210 Tableau 57 : niveau de comptence selon les techniques de data mining............................212 Tableau 57 : niveau de comptence selon les techniques de data mining

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 233

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

3 BIBLIOGRAPHIE
Ouvrages de rfrence

Jean-Michel Franco et EDS-Institut Promthus - Eyrolles, 1996 "Le Data Warehouse, le Data Mining" Michael J.A. Berry et Gordon S. Linoff, - Masson, 1997 "Data Mining:Techniques appliques au marketing, la vente et aux services clients" Ren Lefbure et Gilles Venturi - Eyrolles, 1998 "Le Data Mining" Pierre Lvine et Jean-Charles Pomerol - Editions Herms, 1990 "Systmes interactifs daide la dcision et systmes experts" Jean-Charles Pomerol, - Editions Herms, 1988 "Les systmes experts" Victor Sandoval - Editions Herms, 1997 "Linformatique dcisionnelle" Grard Balantzian - Editions Masson, 1992 "Les schmas directeurs stratgiques, Dmarche pratique" Olivier Crutti et Bruno Gattino - Editions Afnor, 1993 "Indicateurs et Tableaux de Bord" Herv Srieyx - 1993, Editions Calmann-Lvy "le Big bang des Organisations" Anis Bouayad, Pierre-Yves Legris - Editions Dunod, 1996 "Les Alliances Stratgiques" Martin Forest, Groupe Canadien Innovation, Grer le Savoir, le nouveau dfi des organisations , Journe dtudes du 8 Avril 1997, Maison des Professions de Lille.

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 234

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Articles

IEEE Parall & Distributed Technology, "Parallelism speeds data mining", 1995 Inist CNRS, "Power Tools for Data Drilling", 1996 Cover story, "Data Marts : Low cost, High Appeal", 1996 Objectif, "BussinessMiner : le Data Mining pour tous", 1997 Le monde informatique Novembre 1996 Le monde informatique Fvrier 1997 01 Informatique n 1442 Fvrier 1997 et n 1499 du 22 Mai 1998 Dcision Micro&Rseaux n248 Mars 1996 Sciences & vie micro - Juin 1998
Enregistrement (sur cassette)

Formation "Le Data Mining" de Valoris technologies


Autres ouvrages

Building the Data Warehouse - William H. INMON - 2 Ed 1996 WILEY Le Data Warehouse - Jean Michel FRANCO - 1997 Eyrolles Le dveloppement des applications CLIENT/SERVEUR William H. INMON - 1991 MASSON (QED) Entrepts de donnes - Ralph KIMBALL - 1996 Thomson Publishing (WILEY) Data Mining - Techniques appliques au marketing, la vente et aux services clients Michael J.A. BERRY - Gordon LINOFF - 1996 MASSON (Wiley) Le Client-Serveur Georges et Olivier Gardarin - Ed Eyrolles

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 235

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

Articles

Platinum Technology (http://www.platinum.com) Managing the Data Warehouse throughout its lifecycle Putting Metadata to work in the warehouse The Olap Report (http://www.olapreport.com) What is OLAP ? Kenan Technologies (http://www.kenan.com) Multidimensional DataBase Technology D2K (http://www.d2k.com) What is a Data Mart ? - W.H. Inmon Informatiques Magazine Avril 1996 Mars 1997 Juin 1997 Janv 1998 Fv 1998 N 16 Naviguer dans le data warehouse N 26 Data Mining : Comment explorer ses donnes N 30 Aide la dcision - les meilleurs outils N 40 Dossier Data Mart N 41 Dcisionnel : Progiciel ou sur-mesure ?

Le Monde Informatique du 6 Mars 1998 - Les concepts MOLAP et ROLAP


Divers

Support de cours DESS SIAD de la socit OSIS Plaquette commerciale de Business et Dcision (CDROM, Articles de presse) Salon des Eis Paris Salon des EIS Lille

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 236

Conservatoire National des Arts et Mtiers de Lille

Data warehouse et data mining

Version 1.1
Le 15 Juin 1998

4 SITES INTERNET
Les sites les plus riches : Institut Promthus sur http://www.prometheus.eds.fr The DataWarehousing Center sur http://pwp.starnetinc.com/larryg http://www.kdnuggets.com (en Anglais) http://www.elseware.fr Vous pouvez galement consulter : http://www.01-informatique.com/techno/fiches/F1396.htm http://www.ordinateur-individuel.com/dos_1455/dos1455-7.html http:// www.businessdecision.com/mining.htm http://www.grimmersoft.com http://www.mygale.org:80/05/jargonf/dtb/thm02.htm http://www.lmi.fr:80/lmi/736/736p11.html http://wwwperso.hol.fr:80/~nuvoloni/AD.HTM http://yphise.com/etudes/fr/jrnl28.htm http://www.grd-publications.com/tech/t_001.htm http://www.datamodeling.com/ http://www.fr.ibm.com/france/pole/m3p_pr4.htm http://www.idg.fr/lmi/700/700p28.html http://www.cognos.com/international/fr/presse19.html http://institut.inforoute.cgs.fr/idecis.htm http://www.businessdecision.com/r2.htm http://www.lmi.fr/lmi/756/756p10.html

Vous retrouverez l'intgralit de ce dossier sur le site suivant : http://home.nordnet.fr/~dnakache/valeurc

C:\CNAM\Data.doc

Valeur C : Ingnierie des systmes dcisionnels

Page 237