Académique Documents
Professionnel Documents
Culture Documents
Data Mining
Techniques dextraction des connaissances
Module 4'( - Management et N)*" Pro+esseur , Mlissa -aadoun Pro.et soutenu le (/ +0rier 2004
I.1.1. Historique
Le conce9t de )"'" *"(%+ ,$% Bentre9Ct de donnesD a t +ormalis 9our la 9remire +ois en (440' Lide de constituer une $ase de donnes oriente su.et: intgre: contenant des in+ormations dates: non 0olatiles et e=clusi0ement destines au= 9rocessus daide < la dcision: +ut dans un 9remier tem9s accueillie a0ec une certaine 9er9le=it' Eeaucou9 n; 0o;aient que l?#a$illage dun conce9t d.< ancien , -#!. c%!'(%' Mais lconomie actuelle en a dcid autrement' Les entre9rises sont con+rontes < une concurrence de 9lus en 9lus +orte: des clients de 9lus en 9lus e=igeants: dans un conte=te organisationnel de 9lus en 9lus com9le=e et mou0ant' Pour +aire +ace au= nou0eau= en.eu= conomiques: lentre9rise doit antici9er' Lantici9ation ne 9eut @tre e++icace quen sa99u;ant sur de lin+ormation 9ertinente' "ette in+ormation est < la 9orte de toute entre9rise qui dis9ose dun ca9ital de donnes gres 9ar ses s;stmes o9rationnels et qui 9eut en acqurir dautres au9rs de +ournisseurs e=ternes' Mais actuellement: les donnes sont sura$ondantes: non
organises dans une 9ers9ecti0e dcisionnelle et 9ar9illes dans de multi9les s;stmes #trognes' Pourtant: les donnes re9rsentent une mine din+ormations' *l de0ient +ondamental de rassem$ler et d#omogniser les donnes a+in de 9ermettre danal;ser les indicateurs 9ertinents 9our +aciliter les 9rises de dcisions' Pour r9ondre < ces $esoins: le nou0eau rCle de lin+ormatique est de d+inir et dintgrer une arc#itecture qui ser0e de +ondation au= a99lications dcisionnelles , le data 8are#ouse BD3D'
I.1.2. Dfinition
Le D3 est une collection de donnes (#%!'/%$ $,0%': intgres: non 0olatiles et #istorises: organises 9our le su99ort dun 9rocessus daide < la dcision' "ommentons cette d+inition , O(#%!'/%$ $,0%' Le D3 est organis autour des su.ets ma.eurs de lentre9rise: contrairement au= donnes des s;stmes de 9roduction' "eu=-ci sont gnralement organiss 9ar 9rocessus +onctionnels' Les donnes sont structures 9ar t#me' Lintr@t de cette organisation est de dis9oser de lensem$le des in+ormations utiles sur un su.et le 9lus sou0ent trans0ersal au= structures +onctionnelles et organisationnelles de lentre9rise' "ette orientation su.et 0a galement 9ermettre de d0elo99er son s;stme dcisionnel 0ia une a99roc#e 9ar itrations successi0es: su.et a9rs su.et' Lintgration dans une structure unique est indis9ensa$le car les in+ormations communes < 9lusieurs su.ets ne doi0ent 9as @tre du9liques' Dans la 9ratique: une structure su99lmentaire a99ele D"'" M"(' Bmagasin de donnesD 9eut @tre cre 9our su99orter lorientation su.et' D !!/%$ #!'/1(/%$ Un D3 est un 9ro.et dentre9rise' Par e=em9le dans la distri$ution: le m@me indicateur de c#i++re da++aires intressera autant les +orces de 0ente que le d9artement +inancier ou les ac#eteurs' Pour ; 9ar0enir: les donnes doi0ent @tre intgres' %0ant d@tre intgres dans le D3: les donnes doi0ent @tre mises en +orme et uni+ies a+in da0oir un tat co#rent' Par e=em9le: la consolidation de lensem$le des in+ormations concernant un client donn est ncessaire 9our donner une 0ue #omogne de ce client' Une donne doit a0oir une descri9tion et un codage unique' "ette 9#ase dintgration est trs com9le=e et re9rsente /0 < 40F de la c#arge totale dun 9ro.et' D !!/%$ +#$' (#$/%$ Dans un s;stme de 9roduction: la donne est mise < .our < c#aque nou0elle transaction' Dans un D3: la donne ne doit .amais @tre mise < .our' Un r+rentiel tem9s doit @tre associ < la donne a+in d@tre ca9a$le didenti+ier une 0aleur 9articulire dans le tem9s'
D !!/%$ ! ! 3 -"'#-%$ La non 0olatilit des donnes est en quelque sorte une consquence de l#istorisation' Une m@me requ@te e++ectue < quelques mois dinter0alle en 9rcisant la date de r+rence de lin+ormation rec#erc#e donnera le m@me rsultat'
%u= qui9es dadministration de la $ase de donnes Bstructure de la $ase im9lmentant le D3D' %u= qui9es de 9roduction B9rocdures de c#angement: #istorique de M%KJD' L%$ ) !!/%$ +#$' (#$/%$ Un des o$.ecti+s du D3 est de conser0er en ligne les donnes #istorises' "#aque nou0elle insertion de donnes 9ro0enant du s;stme de 9roduction ne dtruit 9as les anciennes 0aleurs: mais cre un nou0elle occurrence de la donne' Le su99ort de stoc&age d9end du 0olume des donnes: de la +rquence daccs: du t;9e daccs' Les su99orts les 9lus couramment utiliss sont les disques: les disques o9tiques numriques: les cassettes' La logique daccs au= donnes la 9lus utilise est la sui0ante , les utilisateurs commencent < attaquer les donnes 9ar le ni0eau le 9lus agrg: 9uis a99ro+ondissent leur rec#erc#e 0ers les donnes les 9lus dtailles Bdrill do8nD' Laccs des donnes se +ait galement directement 9ar les donnes dtailles et #istorises: ce qui conduit < des $rassages de donnes lourds: demandant des mac#ines trs 9uissantes' Le D3 est une russite dans une entre9rise lorsque le nom$re dutilisateur accdant au= donnes de dtail augmente'
de dtail dans le s;stme de 9roduction en ; donnant laccs 9ar le $iais de middle8are ou de 9asserelle'
En e++et: dans les entre9rises: des DM isols 9eu0ent 9roli+rer' "es entre9rises risquent de retom$er dans le 9ige dune arc#itecture com9ose de multi9les s;stmes dcisionnels inco#rents: contenant des in+ormations redondantes' "ela co>te 9lus c#er et cest 9lus com9le=e < grer quun D3 centralis' Les entre9rises amricaines: 9lus en a0ance que les entre9rises euro9ennes: en ont +ait les +rais' Les DM rsol0ent les 9ro$lmes de 9er+ormance des gros D3' Mais ils +ont rgresser 0ers le 0ieu= 9ro$lme des Hlots isols' Les entre9rises 0ont de0oir a++ronter des 9ro$lmes tec#niques com9le=es et co>teu= 9our remettre en co#rence les ensem$les' Mdrer des DM ou les +aire 0oluer 0ers une structure centralise nest 9as +acile' 1n 9eut se 9oser la question sil est 9r+ra$le de $Atir un gros et unique D3 ou $ien de conce0oir un rser0oir 9lus modeste: nourri 9ar les donnes dun seul d9artement' *l est intressant de commencer 9ar un DM: < condition de res9ecter certaines rgles , *m9liquer les utilisateurs' Ne 9as construire de multi9les Data Marts isols' Eannir les redondances'
10
11
8,% 5,-'#)#5%!$# !!%--% L?utilisateur a l?#a$itude de raisonner en 0ue multidimensionnelle comme 9ar e=em9le lorsqu?il sou#aite anal;ser les 0entes 9ar 9roduit mais aussi 9ar rgion ou 9ar 9riode' "es modles 9ermettent des mani9ulations sim9les , rotation: 9i0ot ou 0ues 9ar tranc#e: anal;se de t;9e 9ermutations d?a=es Bs'ice and diceD ou en cascade Bdri'' an* hereD' T("!$9"(%!c% ), $%(3%,( OLAP : )#../(%!'$ ';9%$ )% - 1#c#%-$ "ette trans9arence se traduit 9our l?utilisateur 9ar un com9lment < ses outils #a$ituels garantissant ainsi sa 9roducti0it et sa com9tence' Elle s?a99uie sur une arc#itecture ou0erte 9ermettant < l?utilisateur d?im9lanter le s;stme 1L%P sans a++ecter les +onctionnalits du s;stme central' Par ailleurs: l?utilisateur ne doit 9as @tre concern 9ar l?intgration des donnes dans 1L%P 9ro0enant d?un en0ironnement #omogne ou #trogne' Acc%$$#<#-#'/ : )% ! 5<(%,$%$ $ ,(c%$ )% ) !!/%$ Le s;stme 1L%P doit donner accs au= donnes ncessaires au= anal;ses demandes' Les outils 1L%P doi0ent a0oir leur 9ro9re sc#ma logique de stoc&age des donnes 9#;siques #trognes: doi0ent accder au= donnes et raliser n?im9orte quelle con0ersion a+in de 9rsenter < l?utilisateur une 0ue sim9le et co#rente' *ls doi0ent aussi sa0oir de quel t;9e de s;stmes 9ro0iennent les donnes' P%(. (5"!c% ), $;$'=5% )% R%9 ('#!1 L?augmentation du nom$re de dimensions ou du 0olume de la $ase de donnes ne doit 9as entraHner de dgradation 0isi$le 9ar l?utilisateur' A(c+#'%c',(% C-#%!'>S%(3%,( La 9lu9art des donnes 9our 1L%P sont stoc&es sur des gros s;stmes et sont accessi$les 0ia des P"' *l est donc ncessaire que les 9roduits 1L%P soient ca9a$les de tra0ailler dans un en0ironnement "lientR-er0eur' D#5%!$# !$ G/!/(#?,%$ )outes les dimensions doi0ent @tre qui0alentes en structure et en calcul' *l ne doit e=ister qu?une seule structure logique 9our toutes les dimensions' )oute +onction qui s?a99lique < une dimension doit @tre aussi ca9a$le de s?a99liquer < une autre dimension' G%$'# ! );!"5#?,% )%$ 5"'(#c%$ c(%,$%$ Le sc#ma 9#;sique des outils 1L%P doit s?ada9ter entirement au modle d?anal;se s9ci+ique cr 9our o9timiser la gestion des matrices creuses' En e++et: dans une anal;se < la +ois sur les 9roduits et les rgions: tous les 9roduits ne sont 9as 0endus dans toutes les rgions'
12
S,99 (' M,-'#6U'#-#$"'%,($ Les outils 1L%P doi0ent su99orter les accs concurrents: garantir l?intgrit et la scurit a+in que 9lusieurs utilisateurs accdent au m@me modle d?anal;se' S,99 (' M,-'#6U'#-#$"'%,($ Les outils 1L%P doi0ent su99orter les accs concurrents: garantir l?intgrit et la scurit a+in que 9lusieurs utilisateurs accdent au m@me modle d?anal;se' C"-c,-$ : '("3%($ -%$ )#5%!$# !$ Les o9rations doi0ent 9ou0oir s?e++ectuer sur toutes les dimensions et ne doi0ent 9as +aire inter0enir l?utilisateur 9our d+inir un calcul #irarc#ique' M"!#9,-"'# ! #!',#'#3% )%$ ) !!/%$ )oute mani9ulation doit @tre accom9lie 0ia une action directe sur les cellules du modle sans utiliser de menus ou des c#emins multi9les < tra0ers l?inter+ace utilisateur' S ,9-%$$% %' ."c#-#'/ )% c !$'#','# ! )%$ ("99 ('$ La cration des ra99orts dans les outils 1L%P doit 9ermettre au= utilisateurs de 9rsenter comme ils le dsirent des donnes s;nt#tiques ou des rsultats en +onction de l?orientation du modle' N 5<(% #--#5#'/ )% !#3%",& )@"1(/1"'# ! %' )% )#5%!$# !$ )out outil 1L%P doit grer au moins (P < 20 dimensions' D?a9rs EM "1DD S %ssociates: les - ED 2elationnels n?ont .amais t conIus 9our +ournir les 9uissantes +onctions de s;nt#se: d?anal;se et de consolidation communment a99eles anal;se multidimensionnelle des donnes' "es t;9es de +onctions ont tou.ours t 9r0us 9our @tre +ournis 9ar des outils s9ars: orients utilisateurs et com9lmentaires des - ED 2elationnels' Les ta$les 0ont @tre trans+ormes en un #;9ercu$e de donnes' Les donnes 0ont 9ou0oir @tre 0isualises sous di++rents angles grAce au= 0ues multidimensionnelles' 1L%P: 9arce qu?il associe des mcanismes de na0igation au= donnes: 9ermet d?e++ectuer des anal;ses de manire interacti0e: < l?o99os du requ@teur 9our qui c#aque requ@te est une +in en soi' Par contre: 1L%P ne 9ermet l?anal;se d?in+ormation que dans un cadre 9rd+ini: limitant ds lors l?autonomie 9otentielle de l?utilisateur' De ce +ait requ@tes et outils 1L%P doi0ent @tre considrs comme com9lmentaires 9lutCt que concurrents'
13
M1L%P agrge tout 9ar d+aut' Plus le 0olume de donnes < grer est im9ortant: 9lus les 9rinci9es d?agrgations im9licites 9ro9oss 9ar M1L%P sont 9nalisants dans la 9#ase de c#argement de la $ase: tant en terme de 9er+ormances que de 0olume' La limite +rquemment 0oque 9our M1L%P tant de quelques giga octets' M1L%P sur9asse 21L%P 9our des +onctionnalits a0ances comme la 9r0ision ou la mise < .our des donnes 9our la simulation' "e9endant: ces di++rences s?e=9liquent 9ar une 9lus grande maturit en +a0eur de M1L%P: conce9t qui date de 9rs de 0ingt ans' M1L%P est incom9ati$le a0ec d?autres modes d?accs au= donnes' -i M1L%P doit co#a$iter a0ec d?autres tec#niques d?accs au= donnes B9ar requ@teur: 9ar data mining: etc'D: deu= $ases de donnes doi0ent co#a$iter' En e++et: M1L%P re9ose sur un moteur
12
s9cialis: qui stoc&e les donnes dans un +ormat ta$ulaire 9ro9ritaire Bcu$eD' Pour accder au= donnes de ce cu$e: on ne 9eut 9as utiliser le langage de requ@te standard -LL: il +aut utiliser une %P* s9ci+ique' Le marc# des $ases M1L%P tant 9lus rduit: il est 9lus di++icile 9our les diteurs qui le re9rsentent d?in0estir sur de telles 0olutions'
Les outils 21L%P 9ro9osent le 9lus sou0ent un com9osant ser0eur: 9our o9timiser les 9er+ormances lors de la na0igation dans les donnes ou 9our les calculs com9le=es' %0ec 21L%P: il est dconseill d?accder en direct < des $ases de donnes de 9roduction 9our +aire des anal;ses srieuses: 9our des raisons de 9er+ormances'
14
21L%P n?agrge rien: mais tire 9arti des agrgats s?ils e=istent' De ce +ait 21L%P est 9lus lourd < administrer que M1L%P: 9uisqu?il demande de crer e=9licitement certains agrgats' "ertains diteurs: comme *n+ormi= a0ec Mtacu$e ou 1racle a0ec Disco0erer 2000: 9allient ce9endant < cette +ai$lesse a0ec des outils d?administration a9tes < conseiller 9our une 9olitique d?agrgation adquate' 21L%P est donc mieu= ada9t au= gros 0olumes' En s?a99u;ant sur les $ases relationnelles: r+rence du marc#: 21L%P tire 9artie des 0olutions de celles-ci Bada9tation au= arc#itectures #ard8are so9#istiques: e=tensions o$.ets: etc'D'
16
17
cac#es dans le gisement de donnes' *ls 9ermettent: grAce < un certain nom$re de tec#niques s9ci+iques: de +aire a99araHtre des connaissances' Nous a99ellerons Data Mining l?ensem$le des tec#niques qui 9ermettent de trans+ormer les donnes en connaissances' L?e=9loration se +ait sur l?initiati0e du s;stme: 9ar un utilisateur mtier: et son $ut est de rem9lir l?une des tAc#es sui0antes , classi+ication: estimation: 9rdiction: regrou9ement 9ar similitudes: segmentation Bou clusterisationD: descri9tion et: dans une moindre mesure: l?o9timisation'
17
"es deu= l0es auront (0 de mo;enne mais on 0oit nettement que ll0e % o$tient des notes autour de la mo;enne alors que ll0e E en est trs loign' Pour e=9rimer ceci: les statisticiens dis9osent de nom$reu= indicateurs 9ermettant de mesurer la dis9ersion , Lam9litude: ou dimension: ou tendue de la distri$ution , Zaleur su9 - Zaleur in+ Lcart "<$ -, 5 ;%! des 0aleurs : -" 5 ;%!!% de la distri$ution , La )#$'"!c% #!'%(?,"('#-% ou #!'%( )/c#-% de la distri$ution , cart entre lindi0idu re9rsentant 2P F Bou (0 FD et celui re9rsentant 5P F Bou 40FD de la 9o9ulation'
19
Lcart t;9e B sD d+ini ainsi , Bla ma.orit des indi0idus est entre mo;enne - 2 s et mo;enne [ 2 sD' "es indicateurs sont utiliss 9our 0aluer des 0aleurs manquantes: mettre en 0idence les 0aleurs e=ce9tionnelles et donner une 9remire s;nt#se des donnes' ixx n -X R%-"'# !$ %!'(% 3"(#"<-%$ )rs 0ite: les $esoins des dcideurs ont amen les statisticiens < rec#erc#er des liens entre 9lusieurs 0aria$les ou 9lusieurs 9o9ulations' *ls ont donc cr de nou0eau= indicateurs comme le &#i2: la co0ariance ou le coe++icient de corrlation' La corrlation entre les 0aria$les ne recou0re 9as que la causalit\ elle 9eut se=9liquer de 9lusieurs manires , L" c",$"-#'/ A on o$ser0e quune 0ariation de % entraHne une 0ariation de E' *l e=iste un 0rai lien entre % et E' L% +"$"() A une 0ariation de % entraHne une 0ariation de E mais celle-ci est uniquement due au #asard' L" (/9 !$% c 55,!% A une 0ariation de " entraHne une 0ariation de % et E' L" c !.,$# ! A la 0ariation de % et " entraHne la 0ariation de E' Lorsque le coe++icient de corrlation est signi+icati+: il ; a sou0ent con+usion entre ces di++rentes 9ossi$ilits: surtout entre causalit et #asard' Dautres tec#niques , rgressions sim9les ou multi9les Blinaires ou nonD: a.ustements 0ers des lois statistiques Bloi normale: $inomiale: #;9ergomtrique: de Poisson: '''D 9ermettent de modliser les sries: et +acilitent les estimations' Elles ne seront 9as d0elo99es dans cet ou0rage' C%$ '%c+!#?,%$ $'"'#$'#?,%$ 9%(5%''%!' )% $"3 #( $#- %&#$'% ,!% (%-"'# ! %!'(% 9-,$#%,($ 3"(#"<-%$B )% ."#(% )%$ 9(/3#$# !$ , %$'#5"'# !$. L% <,' )% c% ';9% )"!"-;$% %$' $ ,3%!' )% (%c+%(c+%( )%$ -#%!$ )% c",$"-#'/. La rec#erc#e de connaissances 9ar lutilisation de mt#odes statistiques est sou0ent limite car on ne 9eut tudier simultanment que quelques 0aria$les Bune < deu=D' Les 9ro$lmes sont en gnral 9lus com9le=es et mettent en Tu0re 9lusieurs diGaines de 0aria$les' Pour r9ondre < ces $esoins: il a +allu crer de nou0eau= algorit#mes: 9ar+ois issus de la rec#erc#e o9rationnelle: alliant la rec#erc#e intelligente et les statistiques'
20
21
L#!),c'# ! "est la tec#nique la 9lus communment utilise 9ar le data mining' Elle consiste < tirer des conclusions < 9artir dune srie de +aits' E=em9les ,
E=em9le ( La "lio a 4 roues La Peugeot (0/ a 4 roues La Laguna a 4 roues La "orsa a 4 roues ] )outes les 0oitures ont 4 roues B(00 FD E=em9le 2 La "lio a 4 roues La Peugeot (0/ a 4 roues La Laguna a 4 roues La "orsa a 4 roues Un 9atin < roulettes a 4 roues ] Les 0oitures ont 4 roues BN0 FD
La certitude nest 9as a$solue et sera donc associe < une 9ro$a$ilit' Plus les +aits corro$orant l#;9ot#se sont nom$reu=: 9lus la 9ro$a$ilit que la conclusion soit e=acte est +orte' La rec#erc#e din+ormations se +ait gnralement 9ar des mcanismes dinduction' La dduction est 9lutCt utilise 9our 0ri+ier la co#rence des in+ormations'
22
II.3.4. #a c'assification
La classi+ication se +ait naturellement de9uis d.< $ien longtem9s 9our com9rendre et communiquer notre 0ision du monde B9ar e=em9le les es9ces animales: minrales ou 0gtalesD' > #a c'assification consiste : exa)iner des caractristiques dun ')ent nou3e''e)ent &rsent afin de 'affecter : une c'asse dun ense)7'e &rdfini. 5 _EE22`45a Dans le cadre in+ormatique: les lments sont re9rsents 9ar un enregistrement et le rsultat de la classi+ication 0iendra alimenter un c#am9 su99lmentaire' La classi+ication 9ermet de crer des classes dindi0idus Bterme < 9rendre dans son acce9tion statistiqueD' "elles-ci sont discrtes , #omme R +emme: oui R non: rouge R 0ert R $leu: ''' Les tec#niques les 9lus a99ro9ries < la classi+ication sont , Les ar$res de dcision: Le raisonnement $as sur la mmoire: E0entuellement lanal;se des liens'
II.3.". #esti)ation
"ontrairement < la classi+ication: le rsultat dune estimation 9ermet do$tenir une 0aria$le continue' "elle-ci est o$tenue 9ar une ou 9lusieurs +onctions com$inant les donnes en entre' Le rsultat dune estimation 9ermet de 9rocder au= classi+ications grAce < un $arme' Par e=em9le: on 9eut estimer le re0enu dun mnage selon di0ers critres Bt;9e de 0#icule et nom$re: 9ro+ession ou catgorie socio9ro+essionnelle: t;9e d#a$itation: etc'D' *l sera ensuite 9ossi$le de d+inir des tranc#es de re0enus 9our classi+ier les indi0idus' Un des intr@ts de lestimation est de 9ou0oir ordonner les rsultats 9our ne retenir si on le dsire que les n meilleures 0aleurs' "ette tec#nique sera sou0ent utilise en mar&eting: com$ine < dautres: 9our 9ro9oser des o++res au= meilleurs clients 9otentiels' En+in: il est +acile de mesurer la 9osition dun lment dans sa classe si celui ci a t estim: ce qui 9eut @tre 9articulirement im9ortant 9our les cas limitro9#es' La tec#nique la 9lus a99ro9rie < lestimation est , le rseau de neurones'
II.3.$. #a &rdiction
La 9rdiction ressem$le < la classi+ication et < lestimation mais dans une c#elle tem9orelle di++rente' )out comme les tAc#es 9rcdentes: elle sa99uie sur le 9ass et
23
le 9rsent mais son rsultat se situe dans un +utur gnralement 9rcis' La seule mt#ode 9our mesurer la qualit de la 9rdiction est dattendre b Les tec#niques les 9lus a99ro9ries < la 9rdiction sont , Lanal;se du 9anier de la mnagre Le raisonnement $as sur la mmoire Les ar$res de dcision les rseau= de neurones
II.3.(. #a descri&tion
"est sou0ent lune des 9remires tAc#es demandes < un outil de Data Mining' 1n lui demande de dcrire les donnes dune $ase com9le=e' "ela engendre sou0ent une e=9loitation su99lmentaire en 0ue de +ournir des e=9lications' La tec#nique la 9lus a99ro9rie < la descri9tion est lanal;se du 9anier de la mnagre
II.3.1+. #o&ti)isation
Pour rsoudre de nom$reu= 9ro$lmes: il est courant 9our c#aque solution 9otentielle d; associer une +onction d0aluation' Le $ut de lo9timisation est de ma=imiser ou minimiser cette +onction' Luelques s9cialistes considrent que ce t;9e de 9ro$lme ne rel0e 9as du Data Mining' La tec#nique la 9lus a99ro9rie < lo9timisation est le rseau de neurones
22
*denti+ier le domaine d?tude Pr9arer les donnes %gir sur la $ase de donnes E0aluer les actions La 9remire ta9e consiste < identi+ier le domaine d?tude' *l +aut r9ondre au= questions , de quoi 9arlons nous et que 0oulons nous +aire c % ce stade: on d+init un o$.ecti+ gnral' Lorsque le domaine est dlimit: il +aut recenser les donnes relati0es au domaine: 9uis les regrou9er 9our en +aciliter l?e=9loration' Nous 9arlons de regrou9ement logique: ce qui inclus le client R ser0eur: m@me si ce n?est 9as recommand' La troisime ta9e consiste < mettre en Tu0re une ou 9lusieurs tec#niques de Data Mining 9our une 9remire anal;se' %9rs 0aluation et tude des rsultats: des actions sont mises en Tu0re' La dernire ta9e consistera < 0aluer ces actions: et 9ar-l< m@me la 9er+ormance du Data Mining: 0oire le retour sur in0estissements' L?ac#0ement du 9remier c;cle d$ouc#e sou0ent sur l?e=9ression de nou0eau= o$.ecti+s a++ins: ce qui nous ramne < la 9remire ta9e'
24
"onclusion
Notre tude: dans c#acune de ses 9arties: nous a amens < isoler c#aque tec#nique de laide < la dcision a+in den montrer ses caractristiques: sa mise en Tu0re: son a99ort au 9rocessus de 9rise de dcision' %insi: en conclusion: nous rassem$lons les a99orts de ces tec#niques' Le data 8are#ouse 9ermet au dcideur de tra0ailler dans un en0ironnement in+ormationnel: r+renc: #omogne: #istoris' "ette tec#nique la++ranc#it des 9ro$lmes lis < l#trognit des s;stmes in+ormatiques: l#trognit des di++rentes d+initions de donnes issues de l#istorique de lorganisation' Le Data Mining 9ermet de=traire du Data 3are#ouse deu= t;9es de connaissances , lune: e=9licati0e des rsultats o$tenus 9ar lanal;se multidimensionnelle ou e=9licati0e d#;9ot#ses relati0es au contenu in+ormationnel du data 8are#ouse: lautre: nou0elle: 9orteuse 0entuellement de nou0elles 9ossi$ilits daction' %u.ourd#ui: ces tec#niques +ont lactualit des 9resses s9cialises en in+ormatique: $ien s>r: mais aussi dans les ru$riques Q *n+ormatiques U des 9resses s9ci+iques < c#aque t;9e dacti0it' Les a99lications dcisionnelles dans le Mar&eting nourrissent la ma.orit de ces articles de 9resse'
26
lossaire
B"$% )% ) !!/%$ )#$'(#<,/% Ease dont les donnes sont dis9erses sciemment Bdistri$uesD sur 9lusieurs ser0eurs lis 9ar un rseau' Une a99lication cliente 9eut a0oir $esoin d?accder au= donnes de d ser0eurs simultanment' 1n dit aussi Ease 29artie lorsque c?est le - ED qui 9ilote les accs' B"$% )% ) !!/%$ - c"-% Ease de donne situe sur le 9oste client: contenant des donnes 9ro9res < lutilisateur: 0oire des donnes 9artages r9liques' B"'c+ Dans les outils de Data Mining ou din+ocentre: le $atc# 9ermet de=9lorer de grandes masses de donnes Brequ@tes lourdesD < des #eures creuses: sans tro9 solliciter le 9oste de lutilisateur: 0oire < 9lani+ier le=cution des requ@tes Bmodule sou0ent a99el schedu'erD' C"'"- 1,% Dans certains outils clients du Data 3are#ouse: cest la structure 9ermettant < lutilisateur de tra0ailler sur une 0ue logique et oriente mtier des donnes quil sou#aite 0isualiser' C"'/1 (#% Zaleur 9rise 9ar une 0aria$le discrte' C-"$$#.#c"'# ! Deu= t;9es de classi+ication e=istent , -oit classer des lments dans des classes connues B9ar e=em9le les $ons et les mau0ais clientsD' 1n 9arlera aussi da99rentissage su9er0is' -oit de regrou9er les lments a;ant des com9ortements similaires dans des classes: inconnues au d9art' 1n 9arlera alors de clustering: de segmentation ou da99rentissage non su9er0is' C-#%!' Poste de tra0ail Utilisateur , mac#ine d9orte qui su99orte le dialogue interacti+ a0ec l?utilisateur ou les a99lications: mais aussi les outils de 9rsentation: din+ocentre et de d0elo99ement'
27
D"'" M#!#!1 D+inition un 9eu +loue car rcu9re 9ar $eaucou9 dditeurs doutils daide < la dcision' % lorigine: le data mining corres9ondait < toutes les tec#nologies a0ances susce9ti$les danal;ser lin+ormation dun Data 3are#ouse 9our en tirer des tendances: 9our segmenter lin+ormations: ou 9our trou0er des corrlations dans les donnes' %u.ourd#ui: le terme a tendance < caractriser tous les outils daide < la dcision: le V mineur V tant soit loutil lui-m@me soit lutilisateur' D"'" M#!#!1 Boutils deD %ussi connu sous le nom de 6DD B6no8ledge Disco0er; DataD: les outils de data mining 9ermettent de=traire de la connaissance des donnes en dcou0rant des modles: des rgles dans le 0olume din+ormation 9rsent dans les entre9rises' D"'" S,(.#!1 Possi$ilit donne < lutilisateur de na0iguer de manire ergonomique et intuiti0e dans un modle multidimensionnel' D"'" W"(%+ ,$% Entre9Ct de donnes' Ease de donnes s9ci+ique au monde dcisionnel et destine 9rinci9alement < anal;ser les le0iers Q $usiness U 9otentiels' D"'" W"(%+ ,$#!1 Processus de mise en Tu0re dun 9ro.et de Data 3are#ouse' DBA ?Data @ase .d)inistratorA Personne garante de la co#rence des donnes: des 9er+ormances du s;stme: de sa scurit''' Pour les outils dis9osant dun catalogue: cest le DE% qui le mettra en Tu0re' M )=-% (%-"'# !!%)ec#nique de modlisation consistant < modliser une $ase de donnes en la dcom9osant en entit et en relations corrlant ces entits ' MOLAP ?Mu'tidi)ensiona' -n #ine .na'*tica' ProcessingA "aractrise larc#itecture ncessaire < la mise en 9lace dun s;stme multidimensionnel en sa99u;ant sur les $ases de donnes multidimensionnelles' OLAP ?-n #ine .na'*tica' ProcessingA "aractrise larc#itecture ncessaire < la mise en 9lace dun s;stme din+ormation dcisionnel' -o99ose < 1L)P B1n Line )ransaction ProcessingD: adressant les s;stmes din+ormation transactionnels' 1L%P est sou0ent utilis 9our +aire r+rence e=clusi0ement au= $ases de donnes multidimensionnelles' En e++et: le conce9t a t +ormalis 9ar le Dr "odd: sous la +orme de douGe rgles: dcri0ant un modle idal danal;se din+ormation' *l a t montr de9uis quil a t 9ossi$le de res9ecter ces rgles ind9endamment de la structure de stoc&age utilise' De 9lus en 9lus: le terme est
27
sou0ent utilis 9our dsigner 9lus gnralement le dcisionnel dans ses as9ects tec#niques' R%?,C'% "?est une demande en0o;e au gestionnaire de Ease de Donnes ser0eur' -i celui-ci 9ermet la gestion des donnes: le langage utilis est le -LL' Dans un conte=te din+ocentre: l?e=cution des questions sur un ser0eur est le 9lus sou0ent inter9rte' ROLAP ?/e'ationa' -n #ine .na'*tica' ProcessingA "aractrise larc#itecture ncessaire < la mise en 9lace dun s;stme multidimensionnel en sa99u;ant sur les tec#nologies relationnelles' SGBDR ?1*st,)e de Bestion de @ase de Donnes /e'ationne''eA 1n dialogue a0ec le - ED2 grAce < des requ@tes crites en -LL: langage asseG $ien standardis' Les - ED2 Bcertains disent -er0eur de $ases de donnesD les 9lus a0ancs dis9osent de mcanismes de gestion des contraintes d?intgrit a99els les )riggers: et aussi de ca9acit de traitements lis au= donnes, les Procdures -toc&es'
29
Ei$liogra9#ie
Kean-Mic#el Mranco: #e Data Carehouse; 'e Data Mining; E;rolles: (44/ Mic#ael K'%' Eerr; et ordon -' Lino++: Data Mining:Techniques a&&'iques au )arDeting; : 'a 3ente et aux ser3ices c'ients: Masson: (445 2en Le+$ure et illes Zenturi: #e data )ining: E;rolles: (44N Pierre L0ine et Kean-"#arles Pomerol: 1*st,)es interactifs daide : 'a dcision et s*st,)es ex&erts; !erms: (440 Kean-"#arles Pomerol: #es s*st,)es ex&erts: !erms: (4NN 1li0ier "rutti et Eruno attino; Indicateurs et ta7'eaux de 7ord: %+nor: (443 !er0 -rie;=: #e 7ig 7ang des organisations: Editions "almann-L0;: (443 %nis Eoua;ad: Pierre-`0es Legris: #es a''iances stratgiques: Dunod: (44/ Martin Morest: rou9e "anadien *nno0ation: Brer 'e 1a3oir; 'e nou3eau dfi des organisations; Kourne dtudes du N %0ril (445: Maison des Pro+essions de Lille' A('#c-%$ *EEE Parall S Distri$uted )ec#nolog;: Para''e'is) s&eeds data )ining: (44P *nist "N2-: Po er Too's for Data Dri''ing: (44/ "o0er stor;: Data Marts : #o cost; High .&&ea': (44/ 1$.ecti+: @ussinessMiner : 'e Data Mining &our tous: (445 Le monde in+ormatique No0em$re (44/ Le monde in+ormatique M0rier (445 0( *n+ormatique ne(442 M0rier (445 et ne(444 du 22 Mai (44N Dcision MicroS2seau= ne24N Mars (44/ -ciences S 0ie micro - Kuin (44N
30