Vous êtes sur la page 1sur 33

Datawarehouse et datamining

Par David Maisons

CONSERVATOIRE REGIONNAL DES ART ET METIERS CENTRE DE VERSAILLES


RAPPORT Prsent en vue dobtenir LEXAMEN PROBATOIRE En SYSTEME DINFORMATION Par David MAISONS

Architecture et technique de ces composants de l'informatique dcisionnelle. Impact sur l'architecture du systme d'information (alimentation, restitution, serveur). Les volutions pour le datawarehouse distribu.

DATAWAREHOUSE et DATAMINING

Rdig pour le 11 dcembre 2006

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 1/ 33

Datawarehouse et datamining
Par David Maisons

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 2/ 33

Datawarehouse et datamining
Par David Maisons

1. 2.

INTRODUCTION .................................................................................................................................... 5 QUELQUES DEFINITIONS .................................................................................................................. 7 2.1 2.2 2.3 2.4 2.5 DATAWAREHOUSE ............................................................................................................................. 7 DATAMART ........................................................................................................................................ 7 ETL (EXTRACT, TRANSFORM, LOAD)................................................................................................ 7 DATAMINING ..................................................................................................................................... 7 CUBE ET HYPERCUBE ......................................................................................................................... 7

3.

SYSTEME D'INFORMATION DECISIONNEL ................................................................................. 8 3.1 LA PROBLEMATIQUE DE LENTREPRISE .............................................................................................. 8 3.1.1 Une entreprise.............................................................................................................................. 8 3.1.2 Le rle de dcideur....................................................................................................................... 8 3.1.3 Le besoin ...................................................................................................................................... 8 3.2 INFORMATIQUE DECISIONNELLE ........................................................................................................ 9 3.3 FONCTIONS ET ARCHITECTURE .......................................................................................................... 9 3.3.1 Collecte ...................................................................................................................................... 10 3.3.2 Intgration.................................................................................................................................. 10 3.3.3 Diffusion..................................................................................................................................... 10 3.3.4 Prsentation ............................................................................................................................... 10 3.3.5 Administration............................................................................................................................ 10

4.

PROBLEMATIQUES D'ALIMENTATION....................................................................................... 11 4.1 4.2 4.3 4.3.1 4.3.2 4.3.3 4.3.4 4.4 4.5 LE ROLE DU DATAWAREHOUSE ........................................................................................................ 11 APPREHENDER LES BESOINS ............................................................................................................ 12 EXTRACT-TRANSFORM-LOAD ......................................................................................................... 13 Dfinition ................................................................................................................................... 13 Extract........................................................................................................................................ 14 Transform................................................................................................................................... 14 Load ........................................................................................................................................... 15 EXEMPLE DE DONNEES .................................................................................................................... 16 QUESTIONS A SE POSER .................................................................................................................... 17 CONCEPT DU DATAWAREHOUSE ...................................................................................................... 18 Orient sujet............................................................................................................................... 18 Intgres..................................................................................................................................... 19 Historiss ................................................................................................................................... 19 Non-volatiles .............................................................................................................................. 20 Les mta-donnes ....................................................................................................................... 21 LES DIFFERENTES ZONES ................................................................................................................. 21 DATAMARTS ET ARCHITECTURE ...................................................................................................... 21 Les datamarts............................................................................................................................. 21 Datamarts Indpendants ............................................................................................................ 22 Datamarts dpendants ODS....................................................................................................... 23 Hybride ...................................................................................................................................... 23 OLAP.............................................................................................................................................. 24

5.

ARCHITECTURE D'UN DATAWAREHOUSE ................................................................................ 18 5.1 5.1.1 5.1.2 5.1.3 5.1.4 5.1.5 5.2 5.3 5.3.1 5.3.2 5.3.3 5.3.4 5.4

6.

LE DATAMINING................................................................................................................................. 26 6.1 DEFINITION ...................................................................................................................................... 26 6.2 DATAMINING, UN TRIPLE OBJECTIF .................................................................................................. 27 6.2.1 Expliquer.................................................................................................................................... 27 6.2.2 Confirmer ................................................................................................................................... 27 6.2.3 Explorer ..................................................................................................................................... 27

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 3/ 33

Datawarehouse et datamining
Par David Maisons 6.3 PRINCIPALES METHODES DU DATAMINING ...................................................................................... 28 6.3.1 Analyse descriptive (par Classification) .................................................................................... 28 6.3.2 Analyse prdictive (Par rseaux de neurones)........................................................................... 28 6.4 LES TECHNIQUES ............................................................................................................................. 29 6.4.1 Dcouverte de rgles.................................................................................................................. 29 6.4.2 Arbres de dcision...................................................................................................................... 29 6.4.3 Signal Processing....................................................................................................................... 29 6.4.4 Fractales .................................................................................................................................... 29 6.4.5 Rseaux neuronaux .................................................................................................................... 29 6.5 LE CERCLE VERTUEUX ..................................................................................................................... 30 7. 8. L'EVOLUTION DU DATAWAREHOUSE ET DU DATAMINING................................................ 31 7.1 LE DISTRIBUE .................................................................................................................................. 31 CONCLUSION....................................................................................................................................... 32

BIBLIOGRAPHIE........................................................................................................................................... 33

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 4/ 33

Datawarehouse et datamining
Par David Maisons

1. Introduction

Ne vous tes-vous jamais demand comment est choisi lemplacement des produits dans une grande surface ? Si cest par pur feeling du responsable ou bien par une stratgie marketing bien plus labore Ou bien encore par quel moyen, la publicit nominative (postal ou par mail) est bien souvent en relation directe avec vos habitudes de consommations ? La rponse tient en un mot : le datawarehouse ! Il ne faut pas tre paranoaque, mais Big Brother nest plus loin...nous sommes tous fich dans ces immenses entrepts de donnes. Ds que nous achetons un produit, mettons un appel tlphonique, en quelques mots : toutes actions lies lactivit dune entreprise est stocks dans un datawarehouse pour en tre analyse, via des outils de datamining afin de nous tudier. Ceci dans un but bien prcis : celui de nous connatre afin de mieux identifier nos besoins.

Ne pas anticiper, cest dj mourir


Aujourdhui, toute entreprise doit pouvoir anticiper des vnements de plusieurs type : volution du march, fluctuation de la consommation. Elles doivent galement profiler ses clients afin de mieux les satisfaire, voir mme de savoir crer un nouveau besoin chez les consommateurs. Elle va devoir remettre en cause certain choix, prendre des risques, se recentrer sur des secteurs dactivit ou au contraire slargie sur des nouveaux. Bref, elle va devoir prendre des dcisions. Des dcisions stratgiques ayant une forte rpercussion sur la sant financire de lentreprise. Dans cette situation, une entreprise utilisera un systme dcisionnel pour saider dans cette prise de dcision. Nous verrons ce qui se cache derrire le terme systme dcisionnel et surtout ce quest linformatique dcisionnelle .

Une alimentation saine et varie


Mais ces entrepts de donnes, constituant principale dun systme informatique dcisionnel ont bien dautres fonctions. Ils apportent une aide bien prcieuse aux dirigeant des socits en leur fournissant une vue synthtique de leur entreprise. Une connaissance quils ne sauraient extraire autrement. Pour cela, le datawarehouse doit contenir lensemble des donnes de lentreprise. Et cest souvent la que le bas blesse. Choix et quantit des donnes intgrer, outils et architecture mettre en place. Cela est souvent un casse-tte pour les entreprises, et hlas trop souvent sous-estim, ce qui mne le projet datawarehouse sa perte. Nous tudierons donc la problmatique de lalimentation dun datawarehouse, nous verrons pourquoi cette tape est la plus cruciale dans la dmarche de mise en place dun datawarehouse.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 5/ 33

Datawarehouse et datamining
Par David Maisons

Un datawarehouse ne s' achte pas, il se construit.


Pour utiliser bon escient un produit, il faut le connatre. Cela est galement vrai pour un datawarehouse. Je vais donc vous prsenter les diffrentes architectures dun entrept de donnes. Pour cela, on verra ce qui le diffrencie dune base de donne oprationnelle, et comment lintgrer dans un systme dinformation dune entreprise.

Les donnes ne naissent pas pertinentes, elles le deviennent...


Le but ultime dun datawarehouse est de corrler toutes les informations quil contient afin de fournir au dcideur un schma et/ou une connaissance plus ou moins dtaille de la problmatique soumise. Mais un datawarehouse aussi bien pens soit il, nest rien sans de bon outils de recherche. Un entrept de donne peut contenir plusieurs traoctets de donne. Il faut donc des outils spcialiss dans la recherche dinformation dans cet environnement. Cet outil, ou cet ensemble doutils est appel datamining. Nous tudierons comment le datamining fonctionne, les principes sur lesquels il est bas.

Lvolution, une question de survie


Nous finiront pas une prsentation dune rvolution dans le monde du datawarehouse et datamining savoir lutilisation de technologies issue du monde du calcul : le datawarehouse distribu.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 6/ 33

Datawarehouse et datamining
Par David Maisons

2. Quelques dfinitions
2.1 Datawarehouse
Dfinition de Bill Inmon (1996): Le datawarehouse est orient sujets, cela signifie que les donnes collectes doivent tre orientes mtier et donc tries par thme; Le datawarehouse est compos de donnes intgres, c' est--dire qu' nettoyage un pralable des donnes est ncessaire dans un souci de rationalisation et de normalisation; Les donnes du datawarehouse sont non volatiles ce qui signifie qu' donne entre dans une l' entrept l' pour de bon et n' pas vocation tre supprime ; est a Les donnes du datawarehouse doivent tre historises, donc dates. L' organisation des donnes est conue pour que les personnes intresses aient accs rapidement et sous forme synthtique l' information stratgique dont elles ont besoin pour la prise de dcision. Source : www.commentcamarche.net

2.2 Datamart

Sous ensemble d' entrept de donnes, contenant des informations se rapportant un un secteur d' activit particulier de l' entreprise ou un mtier qui y est exerc (commercial, marketing, comptabilit, etc.). Source : www.journaldunet.com

2.3 ETL (Extract, Transform, Load)

Outil informatique destin extraire des donnes de diverses sources (bases de donnes de production, fichiers, Internet, etc.), les transformer et les charger dans un entrept de donnes. Source : www.journaldunet.com

2.4 Datamining

Recherche de corrlations/liens schmatiques dans une base d' informations volumineuse ou complexe dans le but de les transformer en connaissance. Source : www.journaldunet.com

2.5 Cube et hypercube

Reprsentation abstraite d' informations multidimensionnelles exclusivement numriques utilise par l' approche OLAP (acronyme de On-line Analytical Processing). Cette structure est prvue des fins d' analyses interactives par une ou plusieurs personnes (souvent ni informaticiens ni statisticiens) du mtier que ces donnes sont censes reprsenter Source : www.wikipedia.org

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 7/ 33

Datawarehouse et datamining
Par David Maisons

3. Systme d'information dcisionnel


Aujourdhui la situation de march est telle, que toute entreprise possde un systme dinformation dcisionnel. Celui-ci pourra tre plus ou moins complexe et labor, allant du simple tableau sous Excel lentrept de donnes. Le service attendu dun systme dcisionnel est davoir une vue synthtique de lentreprise, ceci dans le but de pouvoir prendre des dcisions stratgiques concernant les directions et engagement prendre. Nous allons dans quelles mesures un systme dinformation dcisionnel peut aider, en partie, rpondre ces problmes.

3.1 La problmatique de lentreprise

La Problmatique de lEntreprise , ce titre amne naturellement dfinir la position de lentreprise par rapport au sujet le Datawarehouse, le Datamining . Une entreprise se doit en permanence de pouvoir se situer par rapport a la concurrence, mais galement par rapport a la demande et a ce quelle peut offrir. Cest sur ces points quun systme dcisionnel intervient. 3.1.1 Une entreprise Une entreprise est une organisation dote dune mission et dun objectif mtier. Elle doit grer sa raison dtre et/ou sa prennit au travers de diffrents objectifs (scurit, dveloppement, rentabilit). Par voie de consquence, cette organisation humaine est dote dun centre de dcision. 3.1.2 Le rle de dcideur Le dcideur peut-tre le responsable de lentreprise, le responsable dune fonction ou dun secteur. Il est donc celui qui engage la prennit ou la raison dtre de lentreprise. Pour ces raisons, il doit sentourer de diffrents moyens lui permettant une prise de dcision la plus pertinente. Parmi ces moyens, les datawarehouses ont une place primordiale. En effet, ils contiennent les donnes de toute lactivit de lentreprise. Le principal problme rside dans lexploitation de ces informations. Pour cela, il est primordial de bien penser le datamining. 3.1.3 Le besoin Pour faire face la concurrence quengendre la mondialisation, les entreprises doivent tre de plus en plus performantes et rapides dans leurs prises de dcisions. Dautre part, les volumes de donnes suivent un accroissement continu pouvant atteindre plusieurs Traoctets pour une socit. Bien entendu, ces informations ne se trouvent pas sur un systme unique. Prenons lexemple dune entreprise quelconque. Elle possde un systme de gestion de ses employs bas sur une application dveloppe en interne, un autre systme grant ses achats bass sur un ERP, un systme de facturation, etc. Chaque systme dinformation gre un domaine diffrent de lentreprise (un mtier diffrent) et possde sa propre structure de donne ainsi que sa propre politique daccs aux donnes. Cela provoque un manque de cohrence et des difficults daccs linformation allongeant dautant plus le temps de prise de dcision.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 8/ 33

Datawarehouse et datamining
Par David Maisons

Ceci pose la problmatique suivante : Comment prendre des dcisions sur la base dinformations issues de systmes htrognes naillant pas de moyens pour communiquer facilement entre eux. Le datawarehouse rpond en partie cette problmatique. En effet, cette base de donnes regroupe lensemble des informations de lentreprise de faon cohrente dans le but de faciliter lanalyse et la prise de dcision.

3.2 Informatique dcisionnelle

Linformatique dcisionnelle (en anglais : DSS pour Decision Support System) trouve sa place dans larchitecture plus large dun systme d' information. Linformatique dcisionnelle reprsente un ensemble de moyens, doutils et de mthodes permettant de collecter, consolider, modliser et de restituer les donnes de lentreprise dans le but dapporter une aide la prise de dcision. Un autre atout de linformatique dcisionnelle est de permettre aux responsables de la stratgie d' entreprise davoir une vue densemble de une lactivit traite. La maturit des dcisionnels peut tre illustre en cinq tapes :

3.3 Fonctions et Architecture

Tout systme dinformation dcisionnelle, telle que le sont les datawarehouse mettent en uvre cinq fonctions fondamentales : la collecte, lintgration, la diffusion, la prsentation et ladministration des donnes.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 9/ 33

Datawarehouse et datamining
Par David Maisons

3.3.1 Collecte la collecte des donnes brutes dans leurs environnements d' origine, ce qui implique des activits plus ou moins labores de dtection et de filtrage, car un excdent de donnes, un dfaut de fiabilit ou un trop mauvais rapport signal/bruit sont pires que l' absence de donnes 3.3.2 Intgration Lintgration des donnes, c' est--dire leur regroupement en un ensemble technique, logique et smantique homogne appropri aux besoins de l' organisation 3.3.3 Diffusion La diffusion, ou la distribution d' informations labores partir des donnes dans des contextes appropris aux besoins des individus ou des groupes de travail utilisateurs 3.3.4 Prsentation La prsentation, c' est--dire les conditions de mise disposition de l' information (contrle d' accs, personnalisation, ergonomie...) 3.3.5 Administration Ladministration, qui gre le dictionnaire de donnes et le processus d' alimentation de bout en bout, car le systme dinformation dcisionnelle doit-tre lui-mme pilot. En pratique, les fonctions de collecte et d' intgration sont troitement lies entre elles, et sont gnralement associes au datawarehouse. De mme, diffusion et prsentation sont des fonctions fortement "orientes sujet", tournes vers l' utilisateur et son mtier, manipulant des contenus forte valeur ajoute informationnelle et non des donnes brutes; elles sont donc fortement imbriques logiquement et techniquement.

Dans notre monde actuel, fait de communications, une entreprise pour survivre doit pouvoir se situer face la concurrence, connatre son rapport offre / demande. Pour cela, il faut se connatre, et linformatique dcisionnelle, au travers dun datawarehouse apporte tous les lments de rponse.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 10/ 33

Datawarehouse et datamining
Par David Maisons

4. Problmatiques d'alimentation
Les donnes contenues dans un datawarehouse sont issues des diffrentes bases de donnes de lentreprise. Ces bases de production, systmes oprants de lentreprise, correspondent lensemble des applications informatiques utilises au quotidien dans lentreprise pour son activit (gestion de production, gestion bancaire, gestion commerciale,...). Les informations qui y sont stockes, propres chaque application, peuvent parfois tre utilises par dautres programmes, par lintermdiaire de transferts de donnes, couramment appels interfaces. Nous allons donc voir dans ce chapitre les outils et les mthodes permettant dalimenter un datawarehouse tout en minimisant limpact sur les systmes de productions.

4.1 Le rle du datawarehouse

La chane dcisionnelle est compose de trois parties : Alimentation du DataWarehouse Modlisation Restitution des donnes : Analyse et prise des dcisions

Le rle primordial dun datawarehouse apparat ainsi vident dans une stratgie descensionnelle. Lalimentation du datawarehouse en est la phase la plus critique. En effet, importer des donnes inutiles apportera de nombreux problmes. Cela consommera des ressources systme et du temps. De plus, cela rendra les services danalyses plus lents. Autre point prendre en compte et la priodicit dextraction des donnes. Effectivement, le plus souvent, les oprations de collecte de donnes sont coteuses en ressource pour la base
Rdig le : 11dcembre 2006 EXAMEN PROBATOIRE page: 11/ 33

Datawarehouse et datamining
Par David Maisons

accde. Il faut donc trouver un quilibre entre le dlai acceptable entre deux mises a jours des tables du datawarehouse et les ressources consommes. Comme nous lavons indiqu, le Datawarehouse est le centre de chane dcisionnelle, les utilisateurs nauront accs quaux outils de requtage, et danalyse Toutes parties de lalimentation et celles de restitution des donnes sont gres par une quipe informatique interne ou externe lentreprise spcialise en gestion de base de donnes et en dcisionnel.

4.2 Apprhender les besoins

De part sa nature, un datawarehouse est aliment via les informations de lentreprise. Or ces informatique sont stock sous les formes les plus heterogene. On peut retrouver ainsi plusieurs type de base de donnes (acces, DB2, MySQL,), des tableurs, des fichiers a plats Il existe une quasi infinit de format de source. En gnrale, on retrouve trois types de contraintes la mise en uvre dun datawarehouse : Alimentation des donnes de production aux normes des donnes du rfrentiel. Organisation du stockage des informations. Sur le plan fonctionnel, garantir lintgrit des donnes par des dfinitions uniques et rutilisables par tous les utilisateurs. Avant de se lance dans la mise sa place, il est impratif de matrises les principes et les contraintes de fonctionnement du datawarehouse. La mise en place dune base multidimensionnelle correspond donc un certain nombre de critres : Lutilit des donnes : Inutile de sencombrer avec donnes superflues. Le choix des donnes a transfert dans le cube danalyse doit tre dict par la direction de lanalyse elle-mme. Ainsi dans un datamart de type commercial, contenant lensemble des factures clients mises, il sera inutile de transfrer les numros de factures vers le cube danalyse. Cet indicateur, non significatif, ne peut tre rattach aucune dimension. Il faut donc lcarter du transfert. Sa prsence dans le cube napporterait rien lanalyse mais ralentirait les temps de rponse. Le rfrencement : A linverse, toutes les donnes utiles seront inscrites dans les tables via un rfrencement strict. Cette nomenclature sera dfinie pour les besoins danalyses. Ainsi les dates de factures seront rattaches des priodes, les comptes clients vont tre rattachs des groupes de clients. La pertinence : toujours garder a lesprit le rsultat attendu. Avant de se lancer dans la constitution dun cube, il faut vrifier que les informations qui y seront produites auront un sens. Dans une socit o les clients sont de passage et nacquirent le plus souvent quun seul produit, le couple, cest dire le croisement de la dimension clients et de la dimension produits, naura aucun intrt et napportera donc pas dinformation, tout en gnrant un cube trs encombrant en espace mmoire. Il est donc impratif de penser lorganisation des dimensions du cube danalyse en fonction de lactivit de lentreprise. Il nexiste pas de modle standard de donnes multidimensionnelles. Le modle de donnes et sa structure restent en effet uniques pour chaque entreprise.
Rdig le : 11dcembre 2006 EXAMEN PROBATOIRE page: 12/ 33

Datawarehouse et datamining
Par David Maisons

4.3 Extract-Transform-Load

Loutil dalimentation permet de paramtrer des rgles de gestion, propres lentreprise et son secteur dactivit. Ces rgles visent elles aussi assurer la cohrence entre les donnes et ne stocker dans lentrept de donnes que des informations pralablement mises en relation les unes avec les autres. 4.3.1 Dfinition Extract-Transform-Load est connu sous lacronyme ETL (ou parfois : datapumping). Il s' agit d' une technologie informatique middleware permettant d' effectuer des synchronisations massives d' information d' banque de donnes vers une autre. Selon le une contexte, on traduira par alimentation , extraction , transformation , constitution ou conversion , souvent combins. Cette technologie est base sur trois outils : des connecteurs servant exporter ou importer les donnes dans les applications (Ex : connecteur Oracle ou SAP...) des transformateurs qui manipulent les donnes (agrgations, filtres, conversions...) des mises en correspondance (mappages).

Le but est l'intgration de l'entreprise par ses donnes.

Actuellement il existe trois catgories doutils ETL : Engine-based : les transformations sont excutes sur un serveur ETL, disposant en gnral dun rfrentiel. Ce genre doutil dispose dun moteur de transformation ; Database-embedded : les transformations sont intgres dans la base de donnes. Cette fonctionnalit est trs consommatrice de ressource sur la base de donnes. Code-generators : les transformations sont conues et un code est gnr. Ce code est dployable indpendamment de la base de donnes.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 13/ 33

Datawarehouse et datamining
Par David Maisons

Pourquoi tout cet intrt ? Historiquement, les entreprises ont dpenses leurs ressources dans ce qui tait visible des utilisateurs, laspect prsentation et sur le datawarehouse. Seulement, les entreprises gnrant de faon exponentielle des donnes traiter, elles ont dues se recentrer sur la modlisation dimensionnelle afin doptimiser lespace et les temps de traitement. De nos jours laccent est plutt mis sur les systmes ETL. Contrairement aux ides reues, un ETL nest pas un simple programme dextraction, transformation et de chargement et ne doit pas tre trait de la sorte. Il sagit bien au contraire dun systme complexe. Celons une tude de Kimball (2004) sur les ETL, il en ressort quun systme ETL peut tre dcoup en 38 sous-systmes. Cette mme tude a statu que 70% dun projet dentrept de donnes est ddi aux systmes ETL. La mise en place d' systme ETL demande une un expertise spciale et fait appel plusieurs types de ressources humaines. 4.3.2 Extract L'extraction des donnes est la premire des tapes des systmes ETL. Le but de cette tape, est comme son nom lindique : la lecture et lextraction des donnes du systme source. On imagine facilement que cette tape savre tre critique. En effet, dans le cas ou le systme source doit fonctionner en permanence (24h/24 et 7jours sur 7), il faut que lextraction, opration couteuse en ressources, doit tre fait le plus rapidement possible et souvent durant un laps de temps prcis (souvent nomm extract window ), dcid en collaboration des quipes chargs de la gestion et/ou de lexploitation de ce systme source. La complexit de l' extraction n' pas dans le processus de lecture, mais surtout dans le est respect de l' extract window. Cette contrainte est la principale raison de la sparation extraction / transformation. D' autre part, on essaye au maximum d' extraire seulement les donnes utiles (Mise jour ou ajoute aprs la dernire extraction) et pour ce faire on pourrait s' entendre avec le responsable du systme source pour ajouter soit un flag ou encore des dates dans chacune des tables extraites, au moins deux dates : Date de cration de l' enregistrement dans la table et la date de mise jour (En gnral la plupart des systmes sources disposent de ces deux dates). Par ailleurs pour ne pas perdre des donnes suites des problmes d' extraction, il est important de s' assurer que le systme source ne purge pas les donnes avant que l' entrept ne les ait extraits. 4.3.3 Transform La transformation est la tche la plus complexe et qui demande beaucoup de rflexion. Voici les grandes fonctionnalits de transformation : Nettoyage des donnes Standardisation des donnes. Conformit des donnes. gestion des tables de fait gestion des dimensions affectations des cls de substitution (surrogate key) gestion de l' volution lente (Slowly changing dimension)
Rdig le : 11dcembre 2006 EXAMEN PROBATOIRE page: 14/ 33

Datawarehouse et datamining
Par David Maisons

gestion des faits arrivants en retard ( Late arriving fact) gestion des lookups ... 4.3.4 Load Le chargement permet de transfrer les donnes vers leur destination finale. 3 cas de figures se prsentent, celons larchitecture mise en place. 1) de charger les donnes dans l'entrept de donnes. Si la politique retenue a t de construire un entrept de donnes avec une base de donnes, alors les donnes seront charges dans l' entrept. Cette approche est proche celle de Bill Inmon. Il sera ds lors possible dutiliser des fonctionnalits analytiques comme Oracle le permet. 2) de les charger dans des cubes de donnes. La deuxime possibilit est de charger les donnes directement dans des cubes de donnes sans les stocker dans un DW. Cette approche est certainement la plus proche celle de Ralph Kimball. Un bon exemple est l' utilisation directe des cubes de donnes. 3) le mode hybride. La troisime possibilit est celle offre le plus davantages mais demande par contre plus d' effort. Le chargement des donnes seffectue la fois sur le datawarehouse et les datamarts : Un premier chargement des donnes dans un entrept de donnes. Un deuxime chargement dans des cubes de donnes. Par contre cette approche ajoute une charge de travail trs considrable pour l' quipe de dveloppement (Aucun impact sur les utilisateurs) : Une base de donnes crer et maintenir. Un exercice de rflexion sur le modle de donnes du datawarehouse. Un autre exercice de rflexion sur le modle des mta-donnes.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 15/ 33

Datawarehouse et datamining
Par David Maisons

4.4 Exemple de donnes


Chaque donne oprationnelle peut faire l' objet d' analyse. Regardons le cas d' simple une un ticket de supermarch

On utilise le data warehouse pour compiler et analyser des mois, voire des annes de donnes collectes aux caisses dans des centaines ou des milliers de magasins. Cette information est ensuite utilise pour grer les achats, dterminer des prix, optimiser le stockage, les inventaires et pour prendre des dcisions concernant la configuration des magasins. Par exemple, chez Wall Mart on sest aperu grce aux data warehouses que l' vendait on frquemment en mme temps des couches culottes et de la bire, parce que Monsieur est souvent charg daller chercher les couches du nouveau n; d' peut-tre l' o ide de rapprocher les deux rayons.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 16/ 33

Datawarehouse et datamining
Par David Maisons

4.5 Questions se poser


Avant dentreprendre toute dmarche de construction dun Data warehouse , il est ncessaire de se poser un certain nombre de questions afin de vrifier que le projet que lon tudie se situe bien dans le cadre dun projet de type Data warehouse. La liste de questions suivantes permet de visualiser les points clefs : Questions se poser Quel niveau de dtail ont mes informations ? Quelles fonctions de lentreprise sont concernes par ces donnes ? Les donnes sont-elles figes ? Besoin de comparer des donnes entre elles sur plusieurs annes ? Quelles oprations sont raliser sur les donnes ? Rponse dans le cas dun systme de production trs dtailles le plus souvent un seul service de lentreprise Non, elles peuvent se primer en temps rel Non, les donnes sont rgulirement archives Consultation, mais surtout mise jour et ajout de donnes Rponse dans le cas dun Data warehouse synthtiques, mais avec parfois la capacit de conserver le dtail Plusieurs fonctions de lentreprise mettent en relation leurs donnes Oui, une donne une fois introduite dans le Data warehouse nest jamais efface Oui, les donnes historiques sont conserves sur plusieurs annes des fins danalyse Uniquement consultation des donnes issues des systmes de production ou dautres systmes

Lalimentation dun datawarehouse est la phase la plus critique. Il faut choisir avoir attention les donnes a importer, peu de donnes ne refltera pas la ralit, et trop de donnes pnaliseront les systmes de production. Des outils spcialiss existent afin de raliser moindre cot (finance et en ressources systme) les opration dextraction, de traitement et de chargement des donnes des bases oprationnelles vers le datawarehouse.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 17/ 33

Datawarehouse et datamining
Par David Maisons

5. Architecture d'un datawarehouse


Les systmes oprationnels, bases de donnes indispensable la vie dune entreprise, permet davoir une activit journalire (gestion de stocks, base de fournisseurs/clients, etc.). Ceci nest pas le rle dun datawarehouse, coupl des outils de datamining il na pour unique but de faciliter la prise de dcision en apportant une vue synthtise de lensemble des donnes de lentreprise parpilles dans toutes ces bases oprationnelles. Dans ce chapitre nous allons commencer par voir les diffrences entre ces bases oprationnelles et un datawarehouse. Puis nous poursuivrons par la structure logique du datawarehouse en dcrivant les diffrent zones composant larchitecture, ce qui nous permettra dintroduire la description des 3 grandes approches de mise en place dun systme datawarehouse. Enfin, nous finirons par une prsentation de OLAP

5.1 Concept du datawarehouse

Un datawarehouse est caractris par quatre concepts : Orients sujet Intgrs Historiss Non-volatiles Au travers de lexplication de ces quatre caractristiques, nous allons voir les diffrences quil existe entre une base de donnes oprationnelles (systmes sources) et les datawarehouses. 5.1.1 Orient sujet On dit dun datawarehouse quil est orient sujet car il regroupe en son sein des informations des diffrents mtiers (fabrication, achats, qualit) de lentreprise. Gnralement chaque mtier possde des informations de familles communes, mais relatives un sujet diffrent (clients, produits, contrats). Cet tat de fait peut tre matrialis par le schma suivant :

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 18/ 33

Datawarehouse et datamining
Par David Maisons

Le fait quun datawarehouse soit Orient sujet permet une analyse plus pertinente des donnes critique car on synthtise toutes les facettes du sujet que lon tudie. 5.1.2 Intgres Souvent chaque mtier dune entreprise stocke ses informations dans des bases de diffrents types (excel, oracle, etc.) pour faire face a ce problme un datawarehouse est intgr, il regroupe ainsi lintgralit des donnes de lentreprise. Cela a comme avantage direct de simplifier la politique daccs aux donnes aux utilisateurs tout en facilitant laccs pour la prise de dcision. Le fait de dfinir une hirarchie des donnes uniques indpendamment du mtier offre une plus grande souplesse dvolution. Les systmes oprationnels propre a chaque mtier peuvent voluer dans le temps, le datawarehouse est stable. Il permet davoir un rfrentiel commun toute lentreprise.

Comme nous lavons vus prcdemment, se sont les outils dalimentation, les ETL, qui permettent davoir un datawarehouse intgr. 5.1.3 Historiss La diffrence la plus visible avec un systme oprationnel classique et un datawarehouse est que ce dernier est historis. C' est--dire que les donnes contenues dans un entrept de donnes reste figes dans le temps. A contrario, celles prsentes dans un systme oprationnel voluent dans le temps. Elles peuvent tre modifies, voir supprimes. Si les donnes taient conserves plus longtemps, un problme de temps de rponse de la base de donnes apparatra. Le datawarehouse garde une structure cohrente et oprationnelle avec des donnes figes dans le temps.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 19/ 33

Datawarehouse et datamining
Par David Maisons

De part son rle, un datawarehouse conserve trois, quatre, cinq ans dhistorique. Le problme de temps de rponse qui peut subvenir sur une base de donnes classique ne se pose pas car la modlisation mme du datawarehouse est prvue pour cela. 5.1.4 Non-volatiles Une base de donnes mtier est vivante, les donnes sont en perptuelle volution. Le meilleur exemple est la base de donnes servant a grer un stock. Il est donc logique de pouvoir agir sur les donnes en les modifiant et/ou en les supprimant Dans le datawarehouse, une seule opration vis--vis du traitement des donnes est raliser : le chargement Une fois que la donnes est dans lentrepot de donnes, celle-ci nvolue plus. Les donnes sont non-volatiles. Cela permet de figer les informations au moment de lalimentation du datawarehouse.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 20/ 33

Datawarehouse et datamining
Par David Maisons

5.1.5 Les mta-donnes Un datawarehouse permet dagrger et de consolider les donnes afin de les exploiter. Mais lintrt du datawarehouse est de conserver la trace des donnes produites aprs lapplication des rgles de gestion. Cela est rendu possible grce aux mta-donnes, cest dire les donnes sur les donnes . Ces mta-donnes permettent de stocker des informations telles que le nom de la base de production dont la donne est extraite, la date et lheure de la dernire extraction, la frquence de mise jour de cette information, ... Il est ainsi possible partir une donne agrge de remonter la base de source, et lensemble des donnes qui ont servi la produire. Sans rfrentiel qui qualifie de faon prcise ce que signifie chaque valeur dans la base, il n' pas possible de conduire une analyse et interprter les rsultats. C' ce rle que joue est est l' annuaire des mta-donnes.

5.2 Les differentes zones


5.2.1.1 Le staging area

Le staging area est une zone temporaire qui permet le stockage des donnes extraites des systmes sources. C' dans le staging area que vont seffetuer les diffrentes est transformations : Le nettoyage des donnes, le merge, la standardisation, le dduplication... des donnes. Les donnes dans le staging area sont dtruites une fois le chargement ralis.
5.2.1.2 Le Datawarehouse

Les donnes du staging area sont transfres vers le datawarehouse. Il est important de noter que le mtadata(fichier contenant les mta-donnes) est aussi stock dans le datawarehouse. Le Datawarehouse est centrale et devrait tre contenir toutes les donnes de l' entreprise.
5.2.1.3 La zone prsentation

La zone de prsentation est linterface visible du datawarehouse par les utilisateurs. Cest ici quils pourront excuter leurs requtes afin daccder aux donnes, analyser et visualiser les informations produites du datawarehouse.

5.3 Datamarts et Architecture


5.3.1 Les datamarts Une architecture informatique dcisionnelle est gnralement constitue des lments suivants : Les bases de production contenant les informations Le staging Area, zone de stockage des donnes avant traitement. Le datawarehouse, lentrept de donne lui-mme. Les datamarts, cubes affichant une vue mtier.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 21/ 33

Datawarehouse et datamining
Par David Maisons

Il existe plusieurs approches pour mettre en place un Datawarehouse. Par contre seulement trois approches sont communes. Il s' de : agit l' approche "Bottom-up", ou Datamarts indpendant de Kimball l' approche "Top-Down" ou Datamarts dpendant prne par B.Inmon l' approche "Hybride" qui drive des deux premires approches. Il serait utopique de croire quil existe une approche idale. Il faut rechercher lapproche la plus adapte son contexte. 5.3.2 Datamarts Indpendants Selon Kimball la premire tape est la conception du modle dimensionnel pour les datamarts, c' est--dire ayant une vue mtier. Celui-ci placera les datamarts au centre de larchitecture. Le reste sera compos dun staging area temporaire. Dans cette approche, on dit que les datamarts sont centraux car ils peuvent contenir la fois des donnes atomique et agrges, et quils offre la possibilit de fournir une vue entreprise et une vue mtier. Il est a not que limplantation des datamarts se fait dune faon incrmentale et intgre. Pour finir, les utilisateurs ne peuvent effectuer des requtes sur le staging area. Le staging area : comme dit prcdemment, le staging area est temporaire. Il nas pour fonction que le stockage des donnes extraites des systmes sources et les diffrentes opration de transformations savoir : Le nettoyage des donnes, le merge, la standardisation, le dduplication... des donnes. Le staging area est dit temporaire car les donnes sont dtruites une fois le chargement des datamarts termin. Les datamarts indpendants : Les donnes sont donc transfres du staging area vers le datamart concern. Il est important de noter que le mtadata est aussi stock dans le datamart. Les datamarts sont dit indpendants ce qui veut dire qu' n' il existe aucune intgration ou communication entre ces derniers.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 22/ 33

Datawarehouse et datamining
Par David Maisons

La zone prsentation : lorsque les datamarts sont chargs, les utilisateurs peuvent, via la zone de prsentation, excuter leurs requtes Ad hoc, programmer les rapports, analyser et visualiser l' information en provenance des datamarts. 5.3.3 Datamarts dpendants ODS Selon B.Inmon, cest le datawarehouse qui est au centre de larchitecture. La premire tape est donc de concevoir un modle de datawarehouse mais au niveau entreprise cette fois-ci et non plus mtier. Cette architecture sera de type multi-tier compose du staging area, du datawarehouse et des datamarts. Le staging area sera permanent et les datamarts seront interdpendants. Cest dire quils communiqueront entre eux. La principale caractristique de cette approche rside dans le fait que cest le datawarehouse qui contient les donnes atomiques. Il utilise un modle normalis de toute lentreprise. Il est donc orient entreprise, a loppos des datamarts qui eux orients mtier. Ces derniers utilisent des modles dimensionnels orients mtier. Les donnes y sont stockes sous formes agrges. Pour finir, les utilisateurs peuvent effectuer des requtes sur le datawarehouse et sur les datamarts. Operational Data Store (ODS): sont rle est double : il rempli la fonction de stagin area avec toutes les oprations habituelles : stockage des donnes extraites des systmes sources, les diffrentes transformations (nettoyage des donnes, le merge, la standardisation, le dduplication...). Par contre les donnes dans l' ODS ne sont dtruites qu' aprs la dure de vie des donnes dans l' ODS, facteur dfinit par l' organisation et dpend de plusieurs critres. Le deuxime rle d' ODS et c' surtout sa raison d' c' d' un est tre est intgrer les donnes sources dans le but de prsenter toute l' information ncessaire prendre des dcisions tactiques. Le datawarehouse : Les donnes de l' ODS sont transfres vers le datawarehouse. Le Data warehouse est centrale, et d' ailleurs B.Inmon le nome Entreprise DataWarehouse (EDW). Il doit contenir toutes les donnes de l' entreprise. Les datamarts dpendants : Deux possibilits pour alimenter les datamarts : soit depuis lODS soit depuis le datawarehouse. Ces datamarts sont dpendants. La zone prsentation : lorsque les datamarts sont chargs, les utilisateurs peuvent, via la zone de prsentation, excuter leurs requtes Ad hoc, programmer les rapports, analyser et visualiser l' information. 5.3.4 Hybride Cette approche, comme son nom lindique, est un mix des deux premires approches. On commence par concevoir un modle de donnes de l' entreprise en mme temps que les modles spcifiques. Puis on cre un modle normalis d' entreprise de haut niveau ; gnre les modles des premiers datamarts qui seront chargs avec les donnes atomiques en utilisant un staging area temporaire. Un outil ETL sera utilis pour charger les datamarts et pour changer le mtadata avec ces derniers. Les avantages sont nombreux : possibilit de recharger les cubes. Les donnes sont stockes dans une base de donnes de l' entrept de donnes. possibilit de garder les faits et les dimensions dans leur dtail de grain le plus fin.
Rdig le : 11dcembre 2006 EXAMEN PROBATOIRE page: 23/ 33

Datawarehouse et datamining
Par David Maisons

la possibilit de crer des agrgats... une plus grande flexibilit retraiter les donnes, les corriger. ne pas avoir charger le dtail dans les cubes. Ils restent utiliss pour les analyses de plus haut niveau. Si il le besoin daccder aux dtails plus fin se prsente, une lecture est effectue sur lentrept de donnes. En contre partie, cette approche entrane une plus grande charge de travail aux quipes dadministration et dexploitation.

5.4 OLAP

nline Analytical Processing (OLAP), dsigne les bases de donnes multidimensionnelles ou cubes destines l' analyse. Ce terme s' oppose OLTP qui dsigne les systmes transactionnels. OLAP a t dfini par Ted Codd en 1993 au travers de 12 rgles que doit respecter une base de donnes si elle veut adhrer au concept OLAP. Nigel Pendse rcapitule la dfinition de l' OLAP en cinq mot : Fast Analysis of Shared Multidimensional Information (FASMI) traduit en franais comme suit : Analyse Rapide d' Information Multidimensionnelle Partage . OLAP est un mode de stockage prvu pour lanalyse statistique des donnes. Une base de donnes OLAP peut se reprsenter comme un cube N dimensions o toutes les intersections sont pr-calcules. Lexemple suivant ne possde que trois dimensions pour que lon puisse le reprsenter visuellement mais ce nest en aucun cas une limite. Il sagit dun cube reprsentant les ventes de fruits dune entreprise. Les trois axes reprsents sont : Le pays de vente Le type de fruit La priode

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 24/ 33

Datawarehouse et datamining
Par David Maisons

La force de OLAP tient dans le fait que comme toutes les intersections du cube sont calcules. Laccs accder linformation voulue est une opration trs rapide, quasiment instantane. En effet, le rsultat voulu se trouve aux croisements des diffrentes dimensions.

Un datawarehouse a pour vocation laide la prise de dcision en prsentant une vue synthtise des donnes de toute lentreprise. Cest dans cette optique que son architecture est pense. Il est orient sujet, intgr, historis et nonvolatiles. Trois grands courant de penser se confronte quant son architecture. Les datamarts dpendant ou indpendant. Le troisime mixant les deux. Alimenter le datawarehouse est la difficult technique majeure et la plus coteuse.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 25/ 33

Datawarehouse et datamining
Par David Maisons

6. Le datamining
Les donnes ne naissent pas pertinentes, elles le deviennent... . Telle pourrait tre ladage du datamining. Possder toutes les donnes de son entreprise dans un entrept une chose, mais reste le plus important : savoir en extraire une connaissance utile. Le datamining serait donc la solution a la problmatique de toute entreprise, savoir quil permet de mettre en vidence les informations capitales toutes prises de dcisions. Le datamining se veut de pouvoir grce des outils et mthode de pouvoir extraire des informations a partir des gigantesques quantits de donnes. Nous allons donc tudier ces mthodes et outils du datamining.

6.1 Dfinition
Le terme de datamining signifie littralement exploitation des donnes. Comme dans toute exploitation, le but recherch est de pouvoir extraire de la richesse. Ici, la richesse est la connaissance de lentreprise. Fort du constat quil existe au sein des bases de donnes de chaque entreprise une ressource de donnes caches et surtout inexploite, le datamining permet de faire les apparatre, et cela grce un certain nombre de techniques spcifiques. Nous appellerons datamining l' ensemble des techniques qui permettent de transformer les donnes en connaissances. Le primtre dexploitation du datamining ne se limite pas lexploitation des datawarehouses. Il veut dtre capable dexploiter toutes bases de donnes contenant de grandes quantits de donnes telles que des bases relationnelles, des entrepts de donnes mais galement des sources plus ou moins structures comme internet. Dans ces cas, il faut nanmoins construire une base de donnes ou un entrept de donnes qui sera ddi lanalyse.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 26/ 33

Datawarehouse et datamining
Par David Maisons

Comme le montre la figure prcdente, le datamining est un processus itratif qui met en uvre un ensemble de techniques htroclites tel que des bases de donnes (datawarehouse), de la statistique, de lintelligence artificielle, de lanalyse des donnes, des interfaces de communication homme-machine. Le rsultat du datamining peut se prsenter sous diffrent format : texte plat, tableau, graphique Le datamining est un ensemble doutils danalyse dentrept de donnes et de cube apportant au dcisionnaire des lments supplmentaire de prise de dcisions qui ne sont pas forcement visible aux premiers abords.

6.2 Datamining, un triple objectif


6.2.1 Expliquer Le datamining pourra tenter dexpliquer un vnement ou un incident indiscernable. Par la consultation des informations contenues dans lentrept de donnes de lentreprise, on peut tre en mesure de formuler la question suivante : Pour quelle raison perd-t-on des clients pour produit spcifique dans une rgion prcise ? Tout en se basant sur des donnes connectes ou des mises en signification de paramtres lis, le datamining va essayer de trouver un certain nombre dexplication cette question. Le Datamining va aider trouver des hypothses dexplications. 6.2.2 Confirmer Le datamining aidera confirmer un comportement ou une hypothse. Dans le cas o le dcisionnaire aurait un doute concernant une hypothse, le datamining pourra tenter de confirmer cette hypothse en la vrifiant en appliquant des mthodes statistiques ou dintelligence artificielle. 6.2.3 Explorer Enfin, le datamining peut explorer les donnes pour dcouvrir un lien "inconnu" jusqu l. Quand le dcisionnaire nas pas dhypothse ou dide sur un fait prcis, il peut demander au systme de proposer des associations ou des corrlations qui pourront aboutir a une explication. Il est utopique de croire que le datamining pourrait remplacer la rflexion humaine. Le datamining ne doit tre vu et utiliser uniquement en tant quaide la prise de dcision. Par contre, linformatique dcisionnelle dans son ensemble, et plus particulirement le datamining permet de suggrer des hypothses. La dcision finale appartiendra toujours au dcideur

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 27/ 33

Datawarehouse et datamining
Par David Maisons

6.3 Principales mthodes du Datamining

Pour arriver exploiter ces quantits importantes de donnes, le datamining utilise des mthodes dapprentissages automatiques. Une amalgame est faite tord entre toutes ces mthodes. Ces methodes sont de deux types : les techniques descriptives et les techniques prdictives, selon qu' existe ou non une variable "cible" que l' cherche expliquer. il on 6.3.1 Analyse descriptive (par Classification) Le principe de ces mthodes est de pouvoir mettre en vidence les informations prsentes dans le datawarehouse mais qui sont masques par la masse de donne. Parmi les techniques et algorithmes utiliss dans l' analyse descriptive, on cite : Analyse factorielle (ACP et ACM) Mthode des centres mobiles Classification hirarchique Classification neuronale (rseau de Kohonen) Recherche d' association . 6.3.2 Analyse prdictive (Par rseaux de neurones) Contrairement a lanalyse descriptive, cette technique fait appels a de lintelligence artificielle. Lanalyse prdictive, est comme son nom lindique une technique qui va essayer de prvoir une volution des vnements en se basant sur lexploitation ce ceux stocks dans le datawarehouse. En effet, lobservation et lhistorisation des vnements peuvent permettre de prdire une suite logique. Le meilleur exemple est celui des prvisions mtorologiques qui se base sur des tudes des volutions mtorologiques passes. En marketing, l' objectif est par exemple de dterminer les profils d' individus prsentant une probabilit importante d' achat ou encore de prvoir partir de quel moment un client deviendra infidle. Parmi les techniques et algorithmes utiliss dans l' analyse prdictive, on cite : Arbre de dcision Rseaux de neurones Rgression linaire Analyse discriminante de Fisher Analyse probabiliste ...

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 28/ 33

Datawarehouse et datamining
Par David Maisons

6.4 Les techniques

Derrire ces analyses se positionnent des outils bass sur des techniques diffrentes. Je vous propose une prsentation des plus importante de ces techniques. Dcouverte de rgles Arbres de dcision Signal Processing Fractales Rseaux neuronaux Hybride

6.4.1 Dcouverte de rgles Le but tant de construire une rgle logique et empirique applicable dans un contexte prcis. Le principe de cette technique est double. On peut dune part demande au systme de valider une rgle en la justifiant ou linvalidant grce a ses donnes, ou bien dautre part demander au systme dtablir une rgle en fonction des donnes quil possde. 6.4.2 Arbres de dcision Le but de cette technique est de crer un arbre de dcision procdant a une analyse critre par critre. La dtermination de ces critres significatifs est faite selon les poids statistiques des valeurs. Loutil de datamining va parcourir les diffrents critres possibles, dont la finalit sera de trouver des liens entre les chemins qui ont une signification par rapport la problmatique donne. 6.4.3 Signal Processing Mise en vidence dun comportement de donnes en les filtrant. Cette technique consiste e appliquer un filtre travers une hypothse afin de faire apparatre un lien entre ces donnes. 6.4.4 Fractales Technique se basant sur des algorithmes mathmatique. Composer des segmentations partir de modles mathmatiques bass sur des regroupements irrguliers de donnes. 6.4.5 Rseaux neuronaux Utiliser des technologies dintelligence artificielle afin de dcouvrir par lapprentissage du moteur des liens non procduraux. Ces deux dernires techniques sappuient sur des algorithmes mathmatiques et tentent travers des mthodes dapprentissage de constituer des logiques non procdurales.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 29/ 33

Datawarehouse et datamining
Par David Maisons

6.5 Le cercle vertueux

Le cercle vertueux du datamining est ce qui lui permettre de garder une cohrence dans le temp. Celui-ci est compos de quatre tapes : Identifier le domaine d' tude Prparer les donnes Agir sur la base de donnes Evaluer les actions

1. On commence en premier lieu identifier le domaine d' tude. Le principe est de rpondre aux questions : de quoi parlons nous et que voulons nous faire ? Lobjectif gnral est dfini dans cette tape. 2. La deuxime tape est de recenser les donnes relative au domaine prcdemment dfini, puis les prparer, c' est--dire les regrouper afin den facilit lexploration. 3. La troisime tape consiste mettre en uvre une ou plusieurs techniques de datamining pour une premire analyse. Aprs valuation et tude des rsultats, des actions sont mises en uvre. 4. La dernire tape consistera valuer ces actions, et par-l mme la performance du datamining, voire le retour sur investissements. L' achvement du premier cycle dbouche souvent sur l' expression de nouveaux objectifs affins, ce qui nous ramne la premire tape

Le datamining permet de fournir au dcideur toutes les informations ncessaires la prise de dcision. Le datamining sappuis sur des outils statiques/mathmatique ou dintelligence artificielle pour recherche des schmas logique.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 30/ 33

Datawarehouse et datamining
Par David Maisons

7. L'volution du Datawarehouse et du datamining


7.1 Le distribu
Ces dernires annes, le datawarehouse et le datamining ont volus en optimisant certains process ou stockage. Mais cest surtout le hardware, toujours plus puissant, plus rapide qui a permis de traiter ce volume de donne toujours plus important. Aujourdhui, il est courant de voir des datawarehouses de plusieurs traoctets !!! Mais une vritable rvolution est en train de natre. Certaines socits, comme SUN, IBM, SAS, spcialises dans le business intelligence autrement dis dans linformatique dcisionnelle, ont russi porter le datawarehouse et surtout les outils de datamining sur une plateforme distribue de type grille (grid computing)

En automatisant la fonction de "grid computing" dans de multiples applications, le datamining vois ainsi sa flexibilit, son volutivit et sa fiabilit fortement optimise. On peut esprer voir rduire considrablement le temps de traitement des donnes, et les entreprise pourront intgrer et donc analyser une quantit encore plus accrue de donnes. A ce stade, lintgration des donnes dune entreprise devient rellement critique. Les systmes des entreprises sont de plus en plus souvent dit systme temps rel , o les bases de donnes doivent tre oprationnelle et disponible 24H/24, 7jours/7. La fentre de temps durant la quelle la collecte de donnes est permise se vois devenir de plus en plus courte pour un volume toujours de donnes toujours plus important. Fort de ce constat, ce ne sont pas seulement le datawarehouse, mais galement des outils dextraction de donne qui sont ports sur une grille.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 31/ 33

Datawarehouse et datamining
Par David Maisons

8. Conclusion
Cest un fait ! Nous sommes tous donc bien fichs dans les immenses entrepts de donnes que possdent les entreprises. Nos faits, dplacements, achats,, ce sont toutes les donnes relatives notre consommation qui sont des informations vitales aux entreprises. En fusionnant cette richesse avec leurs propres donnes de production, les entreprises crent un vritable systme informatique dcisionnel. Cest ce systme, qui leurs permettrons davoir une vue densemble dun problme sous la forme d' indicateurs de pilotage quantitatifs ou qualitatifs. Mais galement de pouvoir crer des schmas de dhabitude consommation, de pouvoir profiler le consommateur. Mais avant dobtenir cette corne dabondance , il a fallu rsoudre plusieurs problmes. Devant le volume de donne, le datawarehouse est apparut naturellement comme lment dcisif dun systme informatique dcisionnel russi. Tout projet informatique, et particulirement celui de la mise en place dun datawarehouse, ce doit dtre intgralement pens avant son dploiement. Car mme si un entrept de donnes utilise le principe des bases de donnes relationnelles, il s' distingue par de en nombreux points. Ils servent notamment croiser les informations contenues dans les bases de production qui ne sont a priori non lies directement. Il faut galement statuer sur le choix entre lutilisation dun entrept ou des datamarts pour pouvoir aborder sereinement la partie bien plus dlicate de lalimentation. Cette dernire ne devant pas tre fait au dpends des ressources systme des bases de production, tout en tant le plus large possible. De nombreux outils dExtraction, de Traitement, et de Chargement existent (ETL). Quils soient achets ou dvelopps en interne, ils permettent une meilleure intgration des donnes, tout en dchargeant les systmes de production du traitement et de la mise en forme. Aujourdhui il existe de nombreuses socits qui se sont spcialises dans ce domaine. Ainsi, un datawarehouse correctement aliment permet au dcideur, personne en charge des dcisions majeures dune entreprise, d' tablir des statistiques d' volution ou de construire des plans. Cela est rendu possible par le fait quun datawarehouse regroupent lensemble des donnes de lentreprise. Celles-ci sont historises et non modifiable. Mais extraire une synthse partir dun tel volume de donne (souvent de lordre de plusieurs traoctets) nai pas chose aise. Il faut une architecture du systme adquate. Les donnes peuvent tre spares par vue mtier au sein de mini datawarehouse nomm datamarts et coupl avec un mode de stockage en cube OLAP. Chaque dimension dun cube OLAP contenant une famille de donne. Mais cela ne suffit pas, des outils de recherche spcialiss dans recherche et llaboration de schma logique (corrlation sur les volutions des donnes afin de dterminer des scnarii) doivent tre utiliss. Cest le datamining. Apparut dans les 1970, le datamining normment voluer. Lensemble des ses techniques sont bases sur les mathmatiques tels que les statistique et/ou probabilit, cest lanalyse multidimensionnelle, ou sur de lintelligence artificielle pour lanalyse prdictive. Aujourdhui, la mode du grid computing , technique de plus en plus couramment utilise dans le monde du calcul, intresse fortement le monde du datawarehouse. Certaines difficults subsistent comme la confidentialit et la scurit des donnes. Mais comme bien souvent, cest laspect culturel qui pose le plus de barrire.

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 32/ 33

Datawarehouse et datamining
Par David Maisons

Bibliographie
http://www.datawarehouse.com Portail ddi au datawarehouse http://www.journaldunet.com Portail de nouvelles informatiques. http://www.wikipedia.org Encyclopdie libre http://www.commentcamarche.net Encyclopdie informatique http://jean.marie.gouarne.online.fr Pages personnel dun consultant informatique http://www.guideinformatique.com Linformation professionnelle des decideurs http://www.systemeetl.com Site indpendant consacr aux systmes ETL, la modlisation dimensionnelle et le data warehousing. http://www.dwfacile.com Site de formation et d'information concernant l'analyse stratgique, le scorecarding et la businnes intelligence, le data warehousing, la modlisation dimensionnelle et les systmes ETL. http://www.decisionnel.net Site consacr linformation dcisionnelle de l'entreprise. http://www.web-datamining.net Site d'information et d'changes continus sur les volutions du DataMining

Rdig le : 11dcembre 2006

EXAMEN PROBATOIRE

page: 33/ 33

Vous aimerez peut-être aussi