Vous êtes sur la page 1sur 30

DU Les modles de lEconomie Numrique 3me Promotion - 2004

Data Mining
Techniques dextraction des connaissances

eorges El !elou et "#ar$el %$ou &#alil

Module 4'( - Management et N)*" Pro+esseur , Mlissa -aadoun Pro.et soutenu le (/ +0rier 2004

Data Mining : techniques dextraction des connaissances

)a$le des matires


I DU DATA WAREHOUSE AU DATA MART........................................................3 *'(' "1MP2END2E LE D%)% 3%2E!1U-E ''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''3 I.1.1. Historique........................................................................................................3 I.1.2. Dfinition.........................................................................................................4 I.1.3. Pourquoi un data arehouse!........................................................................." *'2' "1MP1-%N)- DU D%)% 3%2E!1U-E'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''/ I.2.1. #a structure......................................................................................................$ I.2.2. #es architectures..............................................................................................% *'3' LE D%)% M%2)''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''4 I.3.1. Mise en &'ace...................................................................................................( I.3.2. #es se&t )*thes du Data Mart.......................................................................1+ II LES OUTILS DEXPLORATION ET DEXTRACTION DES CONNAISSANCES.......................................................................................................11 **'(' LE- 1U)*L- 1L%P'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''(( II.1.1. #es 12 r,g'es -#.P......................................................................................11 II.1.2. #es outi's M-#.P........................................................................................14 II.1.3. #es outi's /-#.P.........................................................................................1" **'2' *N)21DU")*1N %U D%)% M*N*N ''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''(5 II.2.1. Prsentation du Data Mining.......................................................................1% II.2.2. #e Data Mining et 'a /echerche -&rationne''e..........................................10 II.2.3. 1tatistiques et Data Mining..........................................................................10 **'3' L% 2E"!E2"!E DE "1NN%*--%N"E-'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''(4 II.3.1. #es statistiques..............................................................................................1( II.3.2. #es sch)as dinfrence...............................................................................21 II.3.3. #es t2ches du Data Mining...........................................................................22 II.3.4. #a c'assification............................................................................................23 II.3.". #esti)ation..................................................................................................23 II.3.$. #a &rdiction.................................................................................................23 II.3.%. #e regrou&e)ent &ar si)i'itudes..................................................................24 II.3.0. #ana'*se des c'usters...................................................................................24 II.3.(. #a descri&tion...............................................................................................24 II.3.1+. #o&ti)isation.............................................................................................24 II.3.11. #e cerc'e 3ertueux.......................................................................................24 CONCLUSION..............................................................................................................26 GLOSSAIRE..................................................................................................................27 ........................................................................................................................................29 BIBLIOGRAPHIE........................................................................................................30

eorges El !elou et "#ar$el %$ou 6#alil - 2004

Data Mining : techniques dextraction des connaissances

* 7 Du data 8are#ouse au data mart


*'(' "om9rendre le data 8are#ouse
Laccroissement de la concurrence: lindi0idualisation des consommateurs et la $ri0et du c;cle de 0ie des 9roduits o$ligent les entre9rises < non 9lus sim9lement ragir au marc# mais < lantici9er' Elles doi0ent galement ci$ler au mieu= leur clientle a+in de r9ondre < ses attentes' La c !!"#$$"!c% de son mtier: des sc#mas de com9ortement de ses clients: de ses +ournisseurs est essentielle < la sur0ie de lentre9rise: car elle lui 9ermet dantici9er sur la0enir' %u.ourd#ui: les entre9rises ont < leur dis9osition une masse de donnes im9ortante' En e++et: les +ai$les co>ts des mac#ines en terme de stoc&age et de 9uissance ont encourag les socits < accumuler tou.ours 9lus din+ormations' "e9endant: alors que la quantit de donnes < traiter augmente normment - l?institut ED- estime que la quantit de donnes collectes dans le monde dou$le tous les 20 mois - le 0olume din+ormations +ournies au= utilisateurs naugmente lui que trs 9eu' "es rser0oirs de connaissance doi0ent @tre e=9lors a+in den com9rendre le sens et de dceler les relations entre donnes: des modles e=9liquant leur com9ortement' Dans cette o9tique: la constitution dun data 8are#ouse: regrou9ant: sous une +orme #omogne: toutes les donnes de lentre9rise sur une longue 9riode: o++re des 9ers9ecti0es nou0elles au= utilisateurs: notamment en terme d %&'("c'# ! )% c !!"#$$"!c%$ grAce au= outils de data mining'

I.1.1. Historique
Le conce9t de )"'" *"(%+ ,$% Bentre9Ct de donnesD a t +ormalis 9our la 9remire +ois en (440' Lide de constituer une $ase de donnes oriente su.et: intgre: contenant des in+ormations dates: non 0olatiles et e=clusi0ement destines au= 9rocessus daide < la dcision: +ut dans un 9remier tem9s accueillie a0ec une certaine 9er9le=it' Eeaucou9 n; 0o;aient que l?#a$illage dun conce9t d.< ancien , -#!. c%!'(%' Mais lconomie actuelle en a dcid autrement' Les entre9rises sont con+rontes < une concurrence de 9lus en 9lus +orte: des clients de 9lus en 9lus e=igeants: dans un conte=te organisationnel de 9lus en 9lus com9le=e et mou0ant' Pour +aire +ace au= nou0eau= en.eu= conomiques: lentre9rise doit antici9er' Lantici9ation ne 9eut @tre e++icace quen sa99u;ant sur de lin+ormation 9ertinente' "ette in+ormation est < la 9orte de toute entre9rise qui dis9ose dun ca9ital de donnes gres 9ar ses s;stmes o9rationnels et qui 9eut en acqurir dautres au9rs de +ournisseurs e=ternes' Mais actuellement: les donnes sont sura$ondantes: non

eorges El !elou et "#ar$el %$ou 6#alil - 2004

Data Mining : techniques dextraction des connaissances

organises dans une 9ers9ecti0e dcisionnelle et 9ar9illes dans de multi9les s;stmes #trognes' Pourtant: les donnes re9rsentent une mine din+ormations' *l de0ient +ondamental de rassem$ler et d#omogniser les donnes a+in de 9ermettre danal;ser les indicateurs 9ertinents 9our +aciliter les 9rises de dcisions' Pour r9ondre < ces $esoins: le nou0eau rCle de lin+ormatique est de d+inir et dintgrer une arc#itecture qui ser0e de +ondation au= a99lications dcisionnelles , le data 8are#ouse BD3D'

I.1.2. Dfinition
Le D3 est une collection de donnes (#%!'/%$ $,0%': intgres: non 0olatiles et #istorises: organises 9our le su99ort dun 9rocessus daide < la dcision' "ommentons cette d+inition , O(#%!'/%$ $,0%' Le D3 est organis autour des su.ets ma.eurs de lentre9rise: contrairement au= donnes des s;stmes de 9roduction' "eu=-ci sont gnralement organiss 9ar 9rocessus +onctionnels' Les donnes sont structures 9ar t#me' Lintr@t de cette organisation est de dis9oser de lensem$le des in+ormations utiles sur un su.et le 9lus sou0ent trans0ersal au= structures +onctionnelles et organisationnelles de lentre9rise' "ette orientation su.et 0a galement 9ermettre de d0elo99er son s;stme dcisionnel 0ia une a99roc#e 9ar itrations successi0es: su.et a9rs su.et' Lintgration dans une structure unique est indis9ensa$le car les in+ormations communes < 9lusieurs su.ets ne doi0ent 9as @tre du9liques' Dans la 9ratique: une structure su99lmentaire a99ele D"'" M"(' Bmagasin de donnesD 9eut @tre cre 9our su99orter lorientation su.et' D !!/%$ #!'/1(/%$ Un D3 est un 9ro.et dentre9rise' Par e=em9le dans la distri$ution: le m@me indicateur de c#i++re da++aires intressera autant les +orces de 0ente que le d9artement +inancier ou les ac#eteurs' Pour ; 9ar0enir: les donnes doi0ent @tre intgres' %0ant d@tre intgres dans le D3: les donnes doi0ent @tre mises en +orme et uni+ies a+in da0oir un tat co#rent' Par e=em9le: la consolidation de lensem$le des in+ormations concernant un client donn est ncessaire 9our donner une 0ue #omogne de ce client' Une donne doit a0oir une descri9tion et un codage unique' "ette 9#ase dintgration est trs com9le=e et re9rsente /0 < 40F de la c#arge totale dun 9ro.et' D !!/%$ +#$' (#$/%$ Dans un s;stme de 9roduction: la donne est mise < .our < c#aque nou0elle transaction' Dans un D3: la donne ne doit .amais @tre mise < .our' Un r+rentiel tem9s doit @tre associ < la donne a+in d@tre ca9a$le didenti+ier une 0aleur 9articulire dans le tem9s'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

Data Mining : techniques dextraction des connaissances

D !!/%$ ! ! 3 -"'#-%$ La non 0olatilit des donnes est en quelque sorte une consquence de l#istorisation' Une m@me requ@te e++ectue < quelques mois dinter0alle en 9rcisant la date de r+rence de lin+ormation rec#erc#e donnera le m@me rsultat'

I.1.3. Pourquoi un data arehouse!


Lentre9rise construit un s;stme dcisionnel 9our amliorer sa 9er+ormance' Elle doit dcider et antici9er en +onction de lin+ormation dis9oni$le et ca9italiser sur ses e=9riences' De9uis 9lusieurs diGaines dannes: une im9ortante masse din+ormations est stoc&e sous +orme in+ormatique dans les entre9rises' Les s;stmes din+ormation sont destins < garder la trace d0nements de manire +ia$le et intgre' *ls automatisent de 9lus en 9lus les 9rocessus o9rationnels' Paralllement: les entre9rises ralisent la 0aleur du ca9ital din+ormation dont elles dis9osent' %u del< de ce que lin+ormatique leur a99orte en terme +onctionnel: elles 9rennent conscience de ce quelle 9ourrait a99orter au ni0eau du contenu in+ormationnel' "onsidrer le s;stme din+ormation sous cet angle en tant que le0ier 9our accroHtre leur com9titi0it et leur racti0it nest 9as nou0eau' Par contre: tant donn len0ironnement concurrentiel actuel: cela de0ient une question de sur0ie' Lin+ormatique a un rCle < .ouer: en 9ermettant < lentre9rise de de0enir 9lus entre9renante et da0oir une meilleure connaissance de ses clients: de sa com9titi0it ou de son en0ironnement' *l est intressant de calculer les retours sur in0estissement rendus 9u$lics' *ls se calculent rarement en terme de $aisse de co>ts: mais en terme de gains' Par e=em9le: ils 9ermettent un meilleur sui0i des 0entes: une meilleure com9r#ension des #a$itudes dac#ats des clients: dune ada9tation des 9roduits < une clientle mieu= ci$le'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

Data Mining : techniques dextraction des connaissances

*'2' "om9osants du data 8are#ouse


I.2.1. #a structure
Un D3 se structure en quatre classes de donnes: organises selon un a=e #istorique et un a=e s;nt#tique' L%$ ) !!/%$ )/'"#--/%$ Elles re+ltent les 0nements les 9lus rcents' Les intgrations rgulires des donnes issues des s;stmes de 9roduction 0ont #a$ituellement @tre ralises < ce ni0eau' Les 0olumes < traiter sont 9lus im9ortants que ceu= grs en transactionnel' %ttention , le ni0eau de dtail gr dans le D3 nest 9as +orcment identique au ni0eau de dtail gr dans les s;stmes o9rationnels' La donne insre dans le D3 9eut @tre d.< une agrgation ou une sim9li+ication din+ormations tires du s;stme de 9roduction' E=em9le , ltude du 9anier de la mnagre ncessite de stoc&er le ni0eau de +inesse du tic&et de caisse' L%$ ) !!/%$ "1(/1/%$ Elles corres9ondent < des lments danal;se re9rsentati+s des $esoins utilisateurs' Elles constituent d.< un rsultat danal;se et une s;nt#se de lin+ormation contenue dans le s;stme dcisionnel: et doi0ent @tre +acilement accessi$les et com9r#ensi$les' La +acilit daccs est a99orte 9ar des structures multidimensionnelles qui 9ermettent au= utilisateurs de na0iguer dans les donnes sui0ant une logique intuiti0e: a0ec des 9er+ormances o9timales' "ertains - ED du marc# sont conIus 9our +aciliter la mise en 9lace des agrgations et la na0igation au sein de celles-ci' La d+inition com9lte de lin+ormation doit @tre mise < la dis9osition de lutilisateur 9our une $onne com9r#ension' Dans le cas dun agrgat: lin+ormation est com9ose du contenu 9rsent Bmo;enne des 0entesJD et de lunit B9ar mois: 9ar 9roduitJD' L%$ 5/'"6) !!/%$ Elles regrou9ent lensem$le des in+ormations concernant le D3 et les 9rocessus associs' Elles constituent une 0rita$le aide en ligne 9ermettant de connaHtre lin+ormation contenue dans le D3' Elles sont idalement intgres dans un r+rentiel' Les 9rinci9ales in+ormations sont destines , % lutilisateur Bsmantique: localisationD' %u= qui9es res9onsa$les des 9rocessus de trans+ormation des donnes du s;stme de 9roduction 0ers le data 8are#ouse Blocalisation dans les s;stmes de 9roduction: descri9tion des rgles: 9rocessus de trans+ormationD' %u= qui9es res9onsa$les des 9rocessus de cration des donnes agrges < 9artie des donnes dtailles'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

Data Mining : techniques dextraction des connaissances

%u= qui9es dadministration de la $ase de donnes Bstructure de la $ase im9lmentant le D3D' %u= qui9es de 9roduction B9rocdures de c#angement: #istorique de M%KJD' L%$ ) !!/%$ +#$' (#$/%$ Un des o$.ecti+s du D3 est de conser0er en ligne les donnes #istorises' "#aque nou0elle insertion de donnes 9ro0enant du s;stme de 9roduction ne dtruit 9as les anciennes 0aleurs: mais cre un nou0elle occurrence de la donne' Le su99ort de stoc&age d9end du 0olume des donnes: de la +rquence daccs: du t;9e daccs' Les su99orts les 9lus couramment utiliss sont les disques: les disques o9tiques numriques: les cassettes' La logique daccs au= donnes la 9lus utilise est la sui0ante , les utilisateurs commencent < attaquer les donnes 9ar le ni0eau le 9lus agrg: 9uis a99ro+ondissent leur rec#erc#e 0ers les donnes les 9lus dtailles Bdrill do8nD' Laccs des donnes se +ait galement directement 9ar les donnes dtailles et #istorises: ce qui conduit < des $rassages de donnes lourds: demandant des mac#ines trs 9uissantes' Le D3 est une russite dans une entre9rise lorsque le nom$re dutilisateur accdant au= donnes de dtail augmente'

I.2.2. #es architectures


Pour im9lmenter un D3: trois t;9es darc#itectures sont 9ossi$les , L"(c+#'%c',(% (/%--% qui est gnralement retenue 9our les s;stmes dcisionnels' Le stoc&age des donnes est ralis dans un - ED s9ar du s;stme de 9roduction' Le - ED est aliment 9ar des e=tractions 9riodiques' %0ant le c#argement: les donnes su$issent dim9ortants 9rocessus dintgration: de netto;age: de trans+ormation' La0antage est de dis9oser de donnes 9r9ares 9our les $esoins de la dcision et r9ondant au= o$.ecti+s du D3' Les incon0nients sont le co>t de stoc&age su99lmentaire et le manque daccs en tem9s rel' L"(c+#'%c',(% 3#(',%--% qui nest 9ratiquement 9as utilise 9our le data 8are#ouse' Les donnes rsident dans le s;stme de 9roduction' Elles sont rendues 0isi$les 9ar des 9roduits middle8are ou 9ar des 9asserelles' *l en rsulte deu= a0antages , 9as de co>t de stoc&age su99lmentaire et laccs se +ait en tem9s rel' Lincon0nient est que les donnes ne sont 9as 9r9ares' L"(c+#'%c',(% (%5 '% qui est une com$inaison de larc#itecture relle et de larc#itecture 0irtuelle' Elle est rarement utilise' Lo$.ecti+ est dim9lmenter 9#;siquement les ni0eau= agrgs a+in den +aciliter laccs et de garder le ni0eau

eorges El !elou et "#ar$el %$ou 6#alil - 2004

Data Mining : techniques dextraction des connaissances

de dtail dans le s;stme de 9roduction en ; donnant laccs 9ar le $iais de middle8are ou de 9asserelle'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

Data Mining : techniques dextraction des connaissances

*'3' Le Data Mart


%0ec un D3: il ; a des risques dc#ec' 2ien nin0ite lutilisateur < se ser0ir dun D3' Le succs dun D3 d9end donc uniquement de son e++ecti0e utilisation' Un des gros risques de la construction est de se cristalliser autour de la 9ro$lmatique in+ormatique et de se dtourner de lutilisateur' Le Data Mart BDMD minimise la com9le=it in+ormatique' *l est donc 9lus +acile de se concentrer sur les $esoins utilisateurs' Le DM est une $ase de donnes moins co>teuse que le D3 et 9lus lgre 9uisque destine < quelques utilisateurs dun d9artement' *l sduit 9lus que le D3 les candidats au dcisionnel' "est une 9etite structure trs ci$le et 9ilote 9ar les $esoins utilisateurs' *l a la m@me 0ocation que le D3 B+ournir une arc#itecture dcisionnelleD: mais 0ise une 9ro$lmatique 9rcise a0ec un nom$re dutilisateurs 9lus restreint' En gnral: cest une 9etite $ase de donnes B-LL ou multidimensionnelleD a0ec quelques outils: et alimente 9ar un nom$re asseG restreint de sources de donnes' -on co>t ne d9asse 9as deu= < trois millions de +rancs' Mais 9our russir: il ; a quelques 9rcautions < 9rendre: gage de son 0oluti0it 0ers le D3'
D"'" W"(%+ ,$% "i$le utilisateur *m9lication du ser0ice in+ormatique Ease de donnes dentre9rise Modles de donnes "#am9 a99licati+ -ources de donnes -toc&age )aille )em9s de mise en 9lace "o>t Matriel )oute lentre9rise Ele0e -LL t;9e ser0eur % lc#elle de lentre9rise Multi su.ets: neutre Multi9les Ease de donnes "entaine de 1 et 9lus 4 < (N mois 9our les 3 ta9es O / millions de +rancs Uni= D"'" M"(' D9artement Mai$le ou mo;en -LL milieu de gamme: $ases multidimensionnelles D9artement Luelques su.ets: s9ci+ique Luelques unes Plusieurs $ases distri$ues Une < 2 diGaines de 1 / < (2 mois Binstallation en 9lusieurs ta9esD P00'000 < 3 millions de +rancs N): 9etit ser0eur Uni=

I.3.1. Mise en &'ace


"onstruire un ou 9lusieurs DM d9artementau= au lieu dun D3 central 9ermet de 0alider ra9idement le conce9t din+ormatique dcisionnelle' Mais construire des DM nest 9as sans risques ,

eorges El !elou et "#ar$el %$ou 6#alil - 2004

Data Mining : techniques dextraction des connaissances

En e++et: dans les entre9rises: des DM isols 9eu0ent 9roli+rer' "es entre9rises risquent de retom$er dans le 9ige dune arc#itecture com9ose de multi9les s;stmes dcisionnels inco#rents: contenant des in+ormations redondantes' "ela co>te 9lus c#er et cest 9lus com9le=e < grer quun D3 centralis' Les entre9rises amricaines: 9lus en a0ance que les entre9rises euro9ennes: en ont +ait les +rais' Les DM rsol0ent les 9ro$lmes de 9er+ormance des gros D3' Mais ils +ont rgresser 0ers le 0ieu= 9ro$lme des Hlots isols' Les entre9rises 0ont de0oir a++ronter des 9ro$lmes tec#niques com9le=es et co>teu= 9our remettre en co#rence les ensem$les' Mdrer des DM ou les +aire 0oluer 0ers une structure centralise nest 9as +acile' 1n 9eut se 9oser la question sil est 9r+ra$le de $Atir un gros et unique D3 ou $ien de conce0oir un rser0oir 9lus modeste: nourri 9ar les donnes dun seul d9artement' *l est intressant de commencer 9ar un DM: < condition de res9ecter certaines rgles , *m9liquer les utilisateurs' Ne 9as construire de multi9les Data Marts isols' Eannir les redondances'

I.3.2. #es se&t )*thes du Data Mart


Les Data Marts sont 9etits Les Data Marts sont moins com9le=es et 9lus +acile < d9lo;er que les D3' Les Data Marts 9eu0ent 0oluer +acilement 0ers un Data 3are#ouse Les di++rents Data Marts ind9endants 9eu0ent @tre d;namiquement cou9ler 9our se mtamor9#oser en Data 3are#ouse Les DM ne se rsument qu< une seule in+ormation mtier , 9ar e=em9le: les 0entes' Les Data Marts sont 9lus +le=i$les que les Data 3are#ouse Les Data Marts sont un nou0eau conce9t' Donc le DM 9eut 9r9arer au D3' Mais il +aut 9enser grand: a0enir et ado9ter des tec#nologies ca9a$les d0oluer'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

10

Data Mining : techniques dextraction des connaissances

** 7 Les outils de=9loration et de=traction des connaissances


**'(' Les outils 1L%P
Les outils 1L%P B1n Line %nal;tical ProcessD re9osent sur une $ase de donnes multidimensionnelle: destine < e=9loiter ra9idement les dimensions d?une 9o9ulation de donnes' La 9lu9art des solutions 1L%P re9osent sur un m@me 9rinci9e , restructurer et stoc&er dans un +ormat multidimensionnel les donnes issues de +ic#iers 9lats ou de $ases relationnelles' "e +ormat multidimensionnel: connu galement sous le nom d?#;9ercu$e: organise les donnes le long de dimensions' %insi: les utilisateurs anal;sent les donnes sui0ant les a=es 9ro9res < leur mtier' "e t;9e d?anal;se multidimensionnelle ncessite < la +ois l?accs < un grand 0olume de donnes et des mo;ens ada9ts 9our les anal;ser selon di++rents 9oints de 0ue' "eci inclut la ca9acit < discerner des relations nou0elles ou non 9r0ues entre les 0aria$les: la ca9acit < identi+ier les 9aramtres ncessaires < manier un 0olume im9ortant de donnes 9our crer un nom$re illimit de dimensions et 9our s9ci+ier des e=9ressions et conditions inter dimensions' "es dimensions re9rsentent les c#emins de consolidation' 1L%P concerne de ce +ait au moins autant le monde des ser0eurs: 0oire des structures de stoc&age: que celui des outils'

II.1.1. #es 12 r,g'es -#.P


%+in de +ormaliser le conce9t 1L%P: +in (443: < la demande de %r$or -o+t8are: Edgar M' "odd 9u$lie un article intitul Q Pro3iding -#.P to 4ser .na'*sts 5 au= Etats Unis: dans lequel il d+init (2 rgles que tout s;stme de 9ilotage multidimensionnel de0rait res9ecter' Q 6e qui' * a dagra7'e a3ec ces outi's -#.P 5: e=9lique Eric 6lusman: de "antor MitGgerald LP: 8cest que 9e suis en )esure de distri7uer 'es donnes aux uti'isateurs sans 'es o7'iger : a&&rendre des co)&'exes for)u'es de &rogra))ation; dinterrogation ou )<)e : ce qui's aient : &rogra))er 'eurs ta7'eurs8' Dune +aIon gnrale: tous a++irment que lon 9eut inter+acer de nom$reu= outils dutilisateurs a0ec des $ases de donnes multidimensionnelles sans quil soit ncessaire de consentir de lourds e++orts de +ormation ou des inter0entions im9ortantes du ser0ice in+ormatique'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

11

Data Mining : techniques dextraction des connaissances

8,% 5,-'#)#5%!$# !!%--% L?utilisateur a l?#a$itude de raisonner en 0ue multidimensionnelle comme 9ar e=em9le lorsqu?il sou#aite anal;ser les 0entes 9ar 9roduit mais aussi 9ar rgion ou 9ar 9riode' "es modles 9ermettent des mani9ulations sim9les , rotation: 9i0ot ou 0ues 9ar tranc#e: anal;se de t;9e 9ermutations d?a=es Bs'ice and diceD ou en cascade Bdri'' an* hereD' T("!$9"(%!c% ), $%(3%,( OLAP : )#../(%!'$ ';9%$ )% - 1#c#%-$ "ette trans9arence se traduit 9our l?utilisateur 9ar un com9lment < ses outils #a$ituels garantissant ainsi sa 9roducti0it et sa com9tence' Elle s?a99uie sur une arc#itecture ou0erte 9ermettant < l?utilisateur d?im9lanter le s;stme 1L%P sans a++ecter les +onctionnalits du s;stme central' Par ailleurs: l?utilisateur ne doit 9as @tre concern 9ar l?intgration des donnes dans 1L%P 9ro0enant d?un en0ironnement #omogne ou #trogne' Acc%$$#<#-#'/ : )% ! 5<(%,$%$ $ ,(c%$ )% ) !!/%$ Le s;stme 1L%P doit donner accs au= donnes ncessaires au= anal;ses demandes' Les outils 1L%P doi0ent a0oir leur 9ro9re sc#ma logique de stoc&age des donnes 9#;siques #trognes: doi0ent accder au= donnes et raliser n?im9orte quelle con0ersion a+in de 9rsenter < l?utilisateur une 0ue sim9le et co#rente' *ls doi0ent aussi sa0oir de quel t;9e de s;stmes 9ro0iennent les donnes' P%(. (5"!c% ), $;$'=5% )% R%9 ('#!1 L?augmentation du nom$re de dimensions ou du 0olume de la $ase de donnes ne doit 9as entraHner de dgradation 0isi$le 9ar l?utilisateur' A(c+#'%c',(% C-#%!'>S%(3%,( La 9lu9art des donnes 9our 1L%P sont stoc&es sur des gros s;stmes et sont accessi$les 0ia des P"' *l est donc ncessaire que les 9roduits 1L%P soient ca9a$les de tra0ailler dans un en0ironnement "lientR-er0eur' D#5%!$# !$ G/!/(#?,%$ )outes les dimensions doi0ent @tre qui0alentes en structure et en calcul' *l ne doit e=ister qu?une seule structure logique 9our toutes les dimensions' )oute +onction qui s?a99lique < une dimension doit @tre aussi ca9a$le de s?a99liquer < une autre dimension' G%$'# ! );!"5#?,% )%$ 5"'(#c%$ c(%,$%$ Le sc#ma 9#;sique des outils 1L%P doit s?ada9ter entirement au modle d?anal;se s9ci+ique cr 9our o9timiser la gestion des matrices creuses' En e++et: dans une anal;se < la +ois sur les 9roduits et les rgions: tous les 9roduits ne sont 9as 0endus dans toutes les rgions'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

12

Data Mining : techniques dextraction des connaissances

S,99 (' M,-'#6U'#-#$"'%,($ Les outils 1L%P doi0ent su99orter les accs concurrents: garantir l?intgrit et la scurit a+in que 9lusieurs utilisateurs accdent au m@me modle d?anal;se' S,99 (' M,-'#6U'#-#$"'%,($ Les outils 1L%P doi0ent su99orter les accs concurrents: garantir l?intgrit et la scurit a+in que 9lusieurs utilisateurs accdent au m@me modle d?anal;se' C"-c,-$ : '("3%($ -%$ )#5%!$# !$ Les o9rations doi0ent 9ou0oir s?e++ectuer sur toutes les dimensions et ne doi0ent 9as +aire inter0enir l?utilisateur 9our d+inir un calcul #irarc#ique' M"!#9,-"'# ! #!',#'#3% )%$ ) !!/%$ )oute mani9ulation doit @tre accom9lie 0ia une action directe sur les cellules du modle sans utiliser de menus ou des c#emins multi9les < tra0ers l?inter+ace utilisateur' S ,9-%$$% %' ."c#-#'/ )% c !$'#','# ! )%$ ("99 ('$ La cration des ra99orts dans les outils 1L%P doit 9ermettre au= utilisateurs de 9rsenter comme ils le dsirent des donnes s;nt#tiques ou des rsultats en +onction de l?orientation du modle' N 5<(% #--#5#'/ )% !#3%",& )@"1(/1"'# ! %' )% )#5%!$# !$ )out outil 1L%P doit grer au moins (P < 20 dimensions' D?a9rs EM "1DD S %ssociates: les - ED 2elationnels n?ont .amais t conIus 9our +ournir les 9uissantes +onctions de s;nt#se: d?anal;se et de consolidation communment a99eles anal;se multidimensionnelle des donnes' "es t;9es de +onctions ont tou.ours t 9r0us 9our @tre +ournis 9ar des outils s9ars: orients utilisateurs et com9lmentaires des - ED 2elationnels' Les ta$les 0ont @tre trans+ormes en un #;9ercu$e de donnes' Les donnes 0ont 9ou0oir @tre 0isualises sous di++rents angles grAce au= 0ues multidimensionnelles' 1L%P: 9arce qu?il associe des mcanismes de na0igation au= donnes: 9ermet d?e++ectuer des anal;ses de manire interacti0e: < l?o99os du requ@teur 9our qui c#aque requ@te est une +in en soi' Par contre: 1L%P ne 9ermet l?anal;se d?in+ormation que dans un cadre 9rd+ini: limitant ds lors l?autonomie 9otentielle de l?utilisateur' De ce +ait requ@tes et outils 1L%P doi0ent @tre considrs comme com9lmentaires 9lutCt que concurrents'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

13

Data Mining : techniques dextraction des connaissances

II.1.2. #es outi's M-#.P


1L%P sera l?outil < 9ri0ilgier 9our les donnes quantitati0es si leur structuration a 9riori est naturelle Bcas rencontr +rquemment 9our les a99lications +inancires ou commercialesD: alors que le requ@teur sera idal 9our les donnes qualitati0es et 9our toute anal;se im9rom9tue ncessitant l?autonomie de l?utilisateur Bcas rencontr +rquemment 9our le mar&eting ou la gestion du 9ersonnelD' -i les $esoins sont < com$iner: il +audra c#oisir entre la ric#esse +onctionnelle a99orte 9ar 9lusieurs outils inter+acs ou l#omognit des outils intgrs' Deu= 0ersions d?1L%P s?a++rontent actuellement' Les outils M1L%P BMultidimensional 1L%PD d?une 9art qui s?a99uient sur une $ase de donnes multidimensionnelle' Les outils 21L%P B2elational 1L%PD d?autre 9art: qui re9rsente leur qui0alent sur une $ase de donnes relationnelle' M1L%P est conIue e=clusi0ement 9our l?anal;se multidimensionnelle: a0ec un mode de stoc&age o9timis 9ar ra99ort au= c#emins d?accs 9rd+inis' %insi: toute 0aleur d?indicateur associe < l?a=e tem9s sera 9r-calcule au c#argement 9our toutes ses 0aleurs #e$domadaires: mensuelles: etc'

M1L%P agrge tout 9ar d+aut' Plus le 0olume de donnes < grer est im9ortant: 9lus les 9rinci9es d?agrgations im9licites 9ro9oss 9ar M1L%P sont 9nalisants dans la 9#ase de c#argement de la $ase: tant en terme de 9er+ormances que de 0olume' La limite +rquemment 0oque 9our M1L%P tant de quelques giga octets' M1L%P sur9asse 21L%P 9our des +onctionnalits a0ances comme la 9r0ision ou la mise < .our des donnes 9our la simulation' "e9endant: ces di++rences s?e=9liquent 9ar une 9lus grande maturit en +a0eur de M1L%P: conce9t qui date de 9rs de 0ingt ans' M1L%P est incom9ati$le a0ec d?autres modes d?accs au= donnes' -i M1L%P doit co#a$iter a0ec d?autres tec#niques d?accs au= donnes B9ar requ@teur: 9ar data mining: etc'D: deu= $ases de donnes doi0ent co#a$iter' En e++et: M1L%P re9ose sur un moteur

eorges El !elou et "#ar$el %$ou 6#alil - 2004

12

Data Mining : techniques dextraction des connaissances

s9cialis: qui stoc&e les donnes dans un +ormat ta$ulaire 9ro9ritaire Bcu$eD' Pour accder au= donnes de ce cu$e: on ne 9eut 9as utiliser le langage de requ@te standard -LL: il +aut utiliser une %P* s9ci+ique' Le marc# des $ases M1L%P tant 9lus rduit: il est 9lus di++icile 9our les diteurs qui le re9rsentent d?in0estir sur de telles 0olutions'

II.1.3. #es outi's /-#.P


Les outils 21L%P su9er9osent au dessus des - EDR2 $idimensionnels un modle qui re9rsente les donnes dans un +ormat multidimensionnel' "es 9roduits diminuent sensi$lement le co>t li < la mise en Tu0re d?un ser0eur de $ase de donnes multidimensionnelle su99lmentaire' %u tra0ers des mta-donnes: ils 9ermettent de trans+ormer lanal;se multidimensionnelle demande 9ar lutilisateur en requ@tes -LL' Pour cela: ces outils sa99uient 9our la 9lu9art sur une modlisation 9articulire des donnes: distinguant les a=es danal;se et les +aits < o$ser0er' 1n 9arlera notamment de modle en toile et de modle en +locon ou encore des tec#niques de d+inition 9#;sique d?agrgations' "eci o$lige < d+inir le modle en +onction de loutil < utiliser et des anal;ses < mener mais est un gage de 9er+ormance et de co#rence lors de lutilisation de ce t;9e de 9roduits' "ette contrainte e=ige un tra0ail im9ortant des qui9es in+ormatiques et donc enl0e $eaucou9 < l?intr@t d?utiliser un - ED 2elationnel comme su99ort de stoc&age 9our l?anal;se multidimensionnelle'

Les outils 21L%P 9ro9osent le 9lus sou0ent un com9osant ser0eur: 9our o9timiser les 9er+ormances lors de la na0igation dans les donnes ou 9our les calculs com9le=es' %0ec 21L%P: il est dconseill d?accder en direct < des $ases de donnes de 9roduction 9our +aire des anal;ses srieuses: 9our des raisons de 9er+ormances'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

14

Data Mining : techniques dextraction des connaissances

21L%P n?agrge rien: mais tire 9arti des agrgats s?ils e=istent' De ce +ait 21L%P est 9lus lourd < administrer que M1L%P: 9uisqu?il demande de crer e=9licitement certains agrgats' "ertains diteurs: comme *n+ormi= a0ec Mtacu$e ou 1racle a0ec Disco0erer 2000: 9allient ce9endant < cette +ai$lesse a0ec des outils d?administration a9tes < conseiller 9our une 9olitique d?agrgation adquate' 21L%P est donc mieu= ada9t au= gros 0olumes' En s?a99u;ant sur les $ases relationnelles: r+rence du marc#: 21L%P tire 9artie des 0olutions de celles-ci Bada9tation au= arc#itectures #ard8are so9#istiques: e=tensions o$.ets: etc'D'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

16

Data Mining : techniques dextraction des connaissances

**'2' *ntroduction au Data Mining


II.2.1. Prsentation du Data Mining
Le terme de Data Mining est sou0ent em9lo; 9our dsigner lensem$le des outils 9ermettant < lutilisateur daccder au= donnes de lentre9rise: de les anal;ser' Nous restreindrons ici le terme de Data Mining au= outils a;ant 9our o$.et de gnrer des in+ormations (#c+%$ < 9artir des donnes de lentre9rise: notamment des donnes +#$' (#?,%$: de dcou0rir des 5 )=-%$ im9licites dans les donnes' *ls 9eu0ent 9ermettre 9ar e=em9le < un magasin de dgager des 9ro+ils de client et des ac#ats t;9es et de 9r0oir ainsi les 0entes +utures' *l 9ermet daugmenter la 0aleur des donnes contenues dans le D3' Les outils daide < la dcision: quils soient relationnels ou 1L%P: laissent linitiati0e < lutilisateur: qui c#oisit les lments quil 0eut o$ser0er ou anal;ser' %u contraire: dans le cas du Data Mining: le $;$'=5% " -#!#'#"'#3% et dcou0re lui-m@me les associations entre donnes: sans que lutilisateur ait < lui dire de rec#erc#er 9lutCt dans telle ou telle direction ou < 9oser des #;9ot#ses' *l est alors 9ossi$le de 9rdire la0enir: 9ar e=em9le le com9ortement dun client: et de dtecter: dans le 9ass: les donnes inusuelles: e=ce9tionnelles' "es outils ne sont 9lus destins au= seuls e=9erts statisticiens mais doi0ent 9ou0oir @tre em9lo;s 9ar des utilisateurs connaissant leur mtier et 0oulant lanal;ser: le=9lorer' -eul un utilisateur connaissant le mtier 9eut dterminer si les modles: les rgles: les tendances trou0es 9ar loutil sont 9ertinents: intressantes et utiles < lentre9rise' "es utilisateurs nont donc 9as o$ligatoirement un $agage statistique im9ortant' Loutil doit donc soit @tre ergonomique: +acile < utiliser et rendant trans9arentes toutes les +ormules mat#matiques et termes tec#niques utiliss: soit 9ermettre de construire une a99lication Qcl en mainU: rendant < lutilisateur trans9arentes toutes les tec#niques utilises' 1n 9ourrait d+inir le data mining comme une dmarc#e a;ant 9our o$.et de dcou0rir des relations et des +aits: < la +ois nou0eau= et signi+icati+s: sur de grands ensem$les de donnes' 1n de0rait a.outer que la 9ertinence et l?intr@t du Data Mining sont conditionns 9ar les en.eu= attac#s < la dmarc#e entre9rise: qui doit @tre guide 9ar des o$.ecti+s directeurs clairement e=9licits BVamliorer la 9er+ormance commercialeV: Vmieu= ci$ler les 9ros9ectsV: V+idliser la clientleV: Vmieu= com9rendre les 9er+ormances de 9roductionV'''D' Le succs du conce9t de Data 8are#ouse et le nom$re croissant de $ases de donnes dcisionnelles dis9oni$les dans les entre9rises: d;namise +ortement l?o++re Data Mining' Le terme de Data Mining signi+ie littralement . ("1% )% ) !!/%$. "omme dans tout +orage: son $ut est de 9ou0oir e=traire un lment , la connaissance' "es conce9ts sa99uient sur le constat quil e=iste au sein de c#aque entre9rise des in+ormations

eorges El !elou et "#ar$el %$ou 6#alil - 2004

17

Data Mining : techniques dextraction des connaissances

cac#es dans le gisement de donnes' *ls 9ermettent: grAce < un certain nom$re de tec#niques s9ci+iques: de +aire a99araHtre des connaissances' Nous a99ellerons Data Mining l?ensem$le des tec#niques qui 9ermettent de trans+ormer les donnes en connaissances' L?e=9loration se +ait sur l?initiati0e du s;stme: 9ar un utilisateur mtier: et son $ut est de rem9lir l?une des tAc#es sui0antes , classi+ication: estimation: 9rdiction: regrou9ement 9ar similitudes: segmentation Bou clusterisationD: descri9tion et: dans une moindre mesure: l?o9timisation'

II.2.2. #e Data Mining et 'a /echerche -&rationne''e


La rec#erc#e o9rationnelle n?est 9as assimile au= tec#niques de Data Mining' -on o$.ecti+ est l?o9timisation et la rec#erc#e 9rou0e de la meilleure solution: ce qui n?est 9as le cas du Data Mining , -on c#am9 d?a99lication est 9lus large: 1n ne rec#erc#e 9as la meilleure solution 9rou0e mais < +aire le mieu= 9ossi$le: En+in un outil de Data Mining a99liqu < un m@me ensem$le de donnes ne donne 9as tou.ours les m@mes rsultats: contrairement < la rec#erc#e o9rationnelle'

II.2.3. 1tatistiques et Data Mining


1n 9ourrait croire que les tec#niques de Data Mining 0iennent en rem9lacement des statistiques' En +ait: il n?en est rien et elles sont omni9rsentes' 1n les utilise , Pour +aire une anal;se 9rala$le: Pour estimer ou alimenter les 0aleurs manquantes: Pendant le 9rocessus 9our 0aluer la qualit des estimations: %9rs le 9rocessus 9our mesurer les actions entre9rises et +aire un $ilan' Par ailleurs: certaines tec#niques statistiques rcentes Btra0au= de EENWE"2*: anal;se en com9osantes 9rinci9ales: anal;se +actorielle des corres9ondances: JD 9eu0ent @tre a99arentes au= tec#niques de Data Mining' S'"'#$'#?,%$ %' D"'" M#!#!1 $ !' ' ,' : ."#' c 59-/5%!'"#(%$.

eorges El !elou et "#ar$el %$ou 6#alil - 2004

17

Data Mining : techniques dextraction des connaissances

**'3' La rec#erc#e de connaissances


II.3.1. #es statistiques
Les statistiques sont < la $ase de tout raisonnement sur les donnes' Elles 9ermettent de s;nt#tiser un grand nom$re de 0aleurs 9our une 0aria$le grAce < un nom$re trs rduit din+ormations' Pour c#aque 0aria$le: on 0a ainsi rec#erc#er au moins deu= indicateurs , un 9our mesurer la tendance centrale: un 9our mesurer la dis9ersion' I!)#c"'%,($ )% '%!)"!c% c%!'("-% "est en gnral le 9remier critre d?0aluation d?une srie statistique' Le 9lus couramment utilis est la mo;enne arit#mtique , B D XY n i i in x =( ( BN re9rsente le++ecti+ total: xi le centre de la classe ou sa 0aleur: ni le++ecti+ de la classeD: mais on lui associe ou 9r+re 9ar+ois le mode B0aleur la 9lus +rquemment trou0eD ou la mdiane B0aleur du re9rsentant de la moiti de le++ecti+D' La mdiane 9rsente la0antage de ne 9as @tre sensi$le au= 0aleurs e=ce9tionnelles Bcontrairement < la mo;enneD' I!)#c"'%,($ )% )#$9%($# ! Les indicateurs de tendance centrale donnent une 9remire indication de la 9o9ulation < tudier mais il est intressant de sa0oir comment se r9artissent les indi0idus autour de cette mo;enne' En e++et: si deu= l0es o$tiennent les notes sui0antes , El0e % , 4 - (0 - (0 - (0 - (0 - (( El0e E , 0 - 0 - 0 - 20 - 20 - 20

"es deu= l0es auront (0 de mo;enne mais on 0oit nettement que ll0e % o$tient des notes autour de la mo;enne alors que ll0e E en est trs loign' Pour e=9rimer ceci: les statisticiens dis9osent de nom$reu= indicateurs 9ermettant de mesurer la dis9ersion , Lam9litude: ou dimension: ou tendue de la distri$ution , Zaleur su9 - Zaleur in+ Lcart "<$ -, 5 ;%! des 0aleurs : -" 5 ;%!!% de la distri$ution , La )#$'"!c% #!'%(?,"('#-% ou #!'%( )/c#-% de la distri$ution , cart entre lindi0idu re9rsentant 2P F Bou (0 FD et celui re9rsentant 5P F Bou 40FD de la 9o9ulation'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

19

Data Mining : techniques dextraction des connaissances

Lcart t;9e B sD d+ini ainsi , Bla ma.orit des indi0idus est entre mo;enne - 2 s et mo;enne [ 2 sD' "es indicateurs sont utiliss 9our 0aluer des 0aleurs manquantes: mettre en 0idence les 0aleurs e=ce9tionnelles et donner une 9remire s;nt#se des donnes' ixx n -X R%-"'# !$ %!'(% 3"(#"<-%$ )rs 0ite: les $esoins des dcideurs ont amen les statisticiens < rec#erc#er des liens entre 9lusieurs 0aria$les ou 9lusieurs 9o9ulations' *ls ont donc cr de nou0eau= indicateurs comme le &#i2: la co0ariance ou le coe++icient de corrlation' La corrlation entre les 0aria$les ne recou0re 9as que la causalit\ elle 9eut se=9liquer de 9lusieurs manires , L" c",$"-#'/ A on o$ser0e quune 0ariation de % entraHne une 0ariation de E' *l e=iste un 0rai lien entre % et E' L% +"$"() A une 0ariation de % entraHne une 0ariation de E mais celle-ci est uniquement due au #asard' L" (/9 !$% c 55,!% A une 0ariation de " entraHne une 0ariation de % et E' L" c !.,$# ! A la 0ariation de % et " entraHne la 0ariation de E' Lorsque le coe++icient de corrlation est signi+icati+: il ; a sou0ent con+usion entre ces di++rentes 9ossi$ilits: surtout entre causalit et #asard' Dautres tec#niques , rgressions sim9les ou multi9les Blinaires ou nonD: a.ustements 0ers des lois statistiques Bloi normale: $inomiale: #;9ergomtrique: de Poisson: '''D 9ermettent de modliser les sries: et +acilitent les estimations' Elles ne seront 9as d0elo99es dans cet ou0rage' C%$ '%c+!#?,%$ $'"'#$'#?,%$ 9%(5%''%!' )% $"3 #( $#- %&#$'% ,!% (%-"'# ! %!'(% 9-,$#%,($ 3"(#"<-%$B )% ."#(% )%$ 9(/3#$# !$ , %$'#5"'# !$. L% <,' )% c% ';9% )"!"-;$% %$' $ ,3%!' )% (%c+%(c+%( )%$ -#%!$ )% c",$"-#'/. La rec#erc#e de connaissances 9ar lutilisation de mt#odes statistiques est sou0ent limite car on ne 9eut tudier simultanment que quelques 0aria$les Bune < deu=D' Les 9ro$lmes sont en gnral 9lus com9le=es et mettent en Tu0re 9lusieurs diGaines de 0aria$les' Pour r9ondre < ces $esoins: il a +allu crer de nou0eau= algorit#mes: 9ar+ois issus de la rec#erc#e o9rationnelle: alliant la rec#erc#e intelligente et les statistiques'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

20

Data Mining : techniques dextraction des connaissances

II.3.2. #es sch)as dinfrence


Les outils de Data Mining ne sont 9as destins < un in+ormaticien ou un statisticien mais < lutilisateur ou au dcisionnaire' -eul ce dernier saura anal;ser a0ec 9ertinence les in+ormations retournes 9ar le s;stme' Pour mieu= com9rendre le +onctionnement de ces 9rocessus: 0oici les 9rinci9ales tec#niques de raisonnement mises en Tu0re' La rec#erc#e de connaissances et din+ormations re9ose sur les sc#mas din+rence +ormaliss 9ar "' -' Pierce en (403' "e dernier a distingu trois t;9es de raisonnements , la$duction: la dduction et linduction' L"<),c'# ! Pour mieu= e=9rimer ce quest la$duction: le 9lus sim9le est den 9rsenter un e=em9le, T ,'%$ -%$ 3 #',(%$ !' 2 ( ,%$ L" P%,1% ' 106 " 2 ( ,%$ ] L" P%,1% ' 106 %$' ,!% 3 #',(% "ette tec#nique est notamment utilise dans les outils daide au diagnostic mdical 9our dcou0rir la maladie la 9lus 9ro$a$le de9uis une liste de s;m9tCmes' *l +aut ce9endant @tre trs 0igilant a0ec ce t;9e de raisonnement car il 9eut 9roduire des rsultats a$errants ou tri0iau= , )outes les 0oitures ont un moteur: l%ir$us 320 a un moteur ] l%ir$us 320 est une 0oiture' Pour 0iter ce t;9e de com9ortement: il su++it da0oir un ensem$le descri9ti+ Bici , 4 rouesD su++isamment ric#e' *l aurait su++it de 9rciser , toutes les 0oitures ont 4 roues: un moteur: un 0olant: de 3 < P 9ortes: sont inscrites sur les registres des mines: etc' 9our diminuer considra$lement le risque derreurs' )ous les 9ossesseurs de la carte .eune ont moins de 2P ans' "ette in+ormation est certes 0raie mais risque de ne 9rsenter aucun intr@t' L" )/),c'# ! "est le t;9e de raisonnement le 9lus utilis et le 9lus +amilier' -on atout ma.eur est quil ne laisse 9as de 9lace au doute' E=em9le , L" P%,1% ' 106 %$' ,!% 3 #',(% T ,'%$ -%$ 3 #',(%$ !' 2 ( ,%$ ] L" P%,1% ' 106 " 2 ( ,%$

eorges El !elou et "#ar$el %$ou 6#alil - 2004

21

Data Mining : techniques dextraction des connaissances

L#!),c'# ! "est la tec#nique la 9lus communment utilise 9ar le data mining' Elle consiste < tirer des conclusions < 9artir dune srie de +aits' E=em9les ,
E=em9le ( La "lio a 4 roues La Peugeot (0/ a 4 roues La Laguna a 4 roues La "orsa a 4 roues ] )outes les 0oitures ont 4 roues B(00 FD E=em9le 2 La "lio a 4 roues La Peugeot (0/ a 4 roues La Laguna a 4 roues La "orsa a 4 roues Un 9atin < roulettes a 4 roues ] Les 0oitures ont 4 roues BN0 FD

La certitude nest 9as a$solue et sera donc associe < une 9ro$a$ilit' Plus les +aits corro$orant l#;9ot#se sont nom$reu=: 9lus la 9ro$a$ilit que la conclusion soit e=acte est +orte' La rec#erc#e din+ormations se +ait gnralement 9ar des mcanismes dinduction' La dduction est 9lutCt utilise 9our 0ri+ier la co#rence des in+ormations'

II.3.3. #es t2ches du Data Mining


"ontrairement au= ides reIues: le Data Mining nest 9as le remde miracle ca9a$le de rsoudre toutes les di++icults ou $esoins de lentre9rise' "e9endant: une multitude de 9ro$lmes dordre intellectuel: conomique ou commercial 9eu0ent @tre regrou9s: dans leur +ormalisation: dans lune des tAc#es sui0antes , "lassi+ication: Estimation: Prdiction: rou9ement 9ar similitudes: -egmentation Bou clusterisationD: Descri9tion: 19timisation' %+in de le0er toute am$igu^t sur des termes qui 9eu0ent 9araHtre similaires: il sem$le raisonna$le de les d+inir'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

22

Data Mining : techniques dextraction des connaissances

II.3.4. #a c'assification
La classi+ication se +ait naturellement de9uis d.< $ien longtem9s 9our com9rendre et communiquer notre 0ision du monde B9ar e=em9le les es9ces animales: minrales ou 0gtalesD' > #a c'assification consiste : exa)iner des caractristiques dun ')ent nou3e''e)ent &rsent afin de 'affecter : une c'asse dun ense)7'e &rdfini. 5 _EE22`45a Dans le cadre in+ormatique: les lments sont re9rsents 9ar un enregistrement et le rsultat de la classi+ication 0iendra alimenter un c#am9 su99lmentaire' La classi+ication 9ermet de crer des classes dindi0idus Bterme < 9rendre dans son acce9tion statistiqueD' "elles-ci sont discrtes , #omme R +emme: oui R non: rouge R 0ert R $leu: ''' Les tec#niques les 9lus a99ro9ries < la classi+ication sont , Les ar$res de dcision: Le raisonnement $as sur la mmoire: E0entuellement lanal;se des liens'

II.3.". #esti)ation
"ontrairement < la classi+ication: le rsultat dune estimation 9ermet do$tenir une 0aria$le continue' "elle-ci est o$tenue 9ar une ou 9lusieurs +onctions com$inant les donnes en entre' Le rsultat dune estimation 9ermet de 9rocder au= classi+ications grAce < un $arme' Par e=em9le: on 9eut estimer le re0enu dun mnage selon di0ers critres Bt;9e de 0#icule et nom$re: 9ro+ession ou catgorie socio9ro+essionnelle: t;9e d#a$itation: etc'D' *l sera ensuite 9ossi$le de d+inir des tranc#es de re0enus 9our classi+ier les indi0idus' Un des intr@ts de lestimation est de 9ou0oir ordonner les rsultats 9our ne retenir si on le dsire que les n meilleures 0aleurs' "ette tec#nique sera sou0ent utilise en mar&eting: com$ine < dautres: 9our 9ro9oser des o++res au= meilleurs clients 9otentiels' En+in: il est +acile de mesurer la 9osition dun lment dans sa classe si celui ci a t estim: ce qui 9eut @tre 9articulirement im9ortant 9our les cas limitro9#es' La tec#nique la 9lus a99ro9rie < lestimation est , le rseau de neurones'

II.3.$. #a &rdiction
La 9rdiction ressem$le < la classi+ication et < lestimation mais dans une c#elle tem9orelle di++rente' )out comme les tAc#es 9rcdentes: elle sa99uie sur le 9ass et

eorges El !elou et "#ar$el %$ou 6#alil - 2004

23

Data Mining : techniques dextraction des connaissances

le 9rsent mais son rsultat se situe dans un +utur gnralement 9rcis' La seule mt#ode 9our mesurer la qualit de la 9rdiction est dattendre b Les tec#niques les 9lus a99ro9ries < la 9rdiction sont , Lanal;se du 9anier de la mnagre Le raisonnement $as sur la mmoire Les ar$res de dcision les rseau= de neurones

II.3.%. #e regrou&e)ent &ar si)i'itudes


Le regrou9ement 9ar similitudes consiste < grou9er les lments qui 0ont naturellement ensem$les' La tec#nique la 9lus a99ro9rie au regrou9ement 9ar similitudes est lanal;se du 9anier de la mnagre

II.3.0. #ana'*se des c'usters


Lanal;se des clusters consiste < segmenter une 9o9ulation #trogne en sous 9o9ulations #omognes' "ontrairement < la classi+ication: les sous 9o9ulations ne sont 9as 9rta$lies' La tec#nique la 9lus a99ro9rie < la clusterisation est lanal;se des clusters

II.3.(. #a descri&tion
"est sou0ent lune des 9remires tAc#es demandes < un outil de Data Mining' 1n lui demande de dcrire les donnes dune $ase com9le=e' "ela engendre sou0ent une e=9loitation su99lmentaire en 0ue de +ournir des e=9lications' La tec#nique la 9lus a99ro9rie < la descri9tion est lanal;se du 9anier de la mnagre

II.3.1+. #o&ti)isation
Pour rsoudre de nom$reu= 9ro$lmes: il est courant 9our c#aque solution 9otentielle d; associer une +onction d0aluation' Le $ut de lo9timisation est de ma=imiser ou minimiser cette +onction' Luelques s9cialistes considrent que ce t;9e de 9ro$lme ne rel0e 9as du Data Mining' La tec#nique la 9lus a99ro9rie < lo9timisation est le rseau de neurones

II.3.11. #e cerc'e 3ertueux


1n ne met 9as en Tu0re une tec#nique de Data Mining 9our +aire une sim9le e=9loration' *l +aut l?inscrire dans un conte=te 9lus glo$al: a99el le cercle 0ertueu=' "elui-ci est com9os de quatre ta9es ,

eorges El !elou et "#ar$el %$ou 6#alil - 2004

22

Data Mining : techniques dextraction des connaissances

*denti+ier le domaine d?tude Pr9arer les donnes %gir sur la $ase de donnes E0aluer les actions La 9remire ta9e consiste < identi+ier le domaine d?tude' *l +aut r9ondre au= questions , de quoi 9arlons nous et que 0oulons nous +aire c % ce stade: on d+init un o$.ecti+ gnral' Lorsque le domaine est dlimit: il +aut recenser les donnes relati0es au domaine: 9uis les regrou9er 9our en +aciliter l?e=9loration' Nous 9arlons de regrou9ement logique: ce qui inclus le client R ser0eur: m@me si ce n?est 9as recommand' La troisime ta9e consiste < mettre en Tu0re une ou 9lusieurs tec#niques de Data Mining 9our une 9remire anal;se' %9rs 0aluation et tude des rsultats: des actions sont mises en Tu0re' La dernire ta9e consistera < 0aluer ces actions: et 9ar-l< m@me la 9er+ormance du Data Mining: 0oire le retour sur in0estissements' L?ac#0ement du 9remier c;cle d$ouc#e sou0ent sur l?e=9ression de nou0eau= o$.ecti+s a++ins: ce qui nous ramne < la 9remire ta9e'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

24

Data Mining : techniques dextraction des connaissances

"onclusion
Notre tude: dans c#acune de ses 9arties: nous a amens < isoler c#aque tec#nique de laide < la dcision a+in den montrer ses caractristiques: sa mise en Tu0re: son a99ort au 9rocessus de 9rise de dcision' %insi: en conclusion: nous rassem$lons les a99orts de ces tec#niques' Le data 8are#ouse 9ermet au dcideur de tra0ailler dans un en0ironnement in+ormationnel: r+renc: #omogne: #istoris' "ette tec#nique la++ranc#it des 9ro$lmes lis < l#trognit des s;stmes in+ormatiques: l#trognit des di++rentes d+initions de donnes issues de l#istorique de lorganisation' Le Data Mining 9ermet de=traire du Data 3are#ouse deu= t;9es de connaissances , lune: e=9licati0e des rsultats o$tenus 9ar lanal;se multidimensionnelle ou e=9licati0e d#;9ot#ses relati0es au contenu in+ormationnel du data 8are#ouse: lautre: nou0elle: 9orteuse 0entuellement de nou0elles 9ossi$ilits daction' %u.ourd#ui: ces tec#niques +ont lactualit des 9resses s9cialises en in+ormatique: $ien s>r: mais aussi dans les ru$riques Q *n+ormatiques U des 9resses s9ci+iques < c#aque t;9e dacti0it' Les a99lications dcisionnelles dans le Mar&eting nourrissent la ma.orit de ces articles de 9resse'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

26

Data Mining : techniques dextraction des connaissances

lossaire
B"$% )% ) !!/%$ )#$'(#<,/% Ease dont les donnes sont dis9erses sciemment Bdistri$uesD sur 9lusieurs ser0eurs lis 9ar un rseau' Une a99lication cliente 9eut a0oir $esoin d?accder au= donnes de d ser0eurs simultanment' 1n dit aussi Ease 29artie lorsque c?est le - ED qui 9ilote les accs' B"$% )% ) !!/%$ - c"-% Ease de donne situe sur le 9oste client: contenant des donnes 9ro9res < lutilisateur: 0oire des donnes 9artages r9liques' B"'c+ Dans les outils de Data Mining ou din+ocentre: le $atc# 9ermet de=9lorer de grandes masses de donnes Brequ@tes lourdesD < des #eures creuses: sans tro9 solliciter le 9oste de lutilisateur: 0oire < 9lani+ier le=cution des requ@tes Bmodule sou0ent a99el schedu'erD' C"'"- 1,% Dans certains outils clients du Data 3are#ouse: cest la structure 9ermettant < lutilisateur de tra0ailler sur une 0ue logique et oriente mtier des donnes quil sou#aite 0isualiser' C"'/1 (#% Zaleur 9rise 9ar une 0aria$le discrte' C-"$$#.#c"'# ! Deu= t;9es de classi+ication e=istent , -oit classer des lments dans des classes connues B9ar e=em9le les $ons et les mau0ais clientsD' 1n 9arlera aussi da99rentissage su9er0is' -oit de regrou9er les lments a;ant des com9ortements similaires dans des classes: inconnues au d9art' 1n 9arlera alors de clustering: de segmentation ou da99rentissage non su9er0is' C-#%!' Poste de tra0ail Utilisateur , mac#ine d9orte qui su99orte le dialogue interacti+ a0ec l?utilisateur ou les a99lications: mais aussi les outils de 9rsentation: din+ocentre et de d0elo99ement'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

27

Data Mining : techniques dextraction des connaissances

D"'" M#!#!1 D+inition un 9eu +loue car rcu9re 9ar $eaucou9 dditeurs doutils daide < la dcision' % lorigine: le data mining corres9ondait < toutes les tec#nologies a0ances susce9ti$les danal;ser lin+ormation dun Data 3are#ouse 9our en tirer des tendances: 9our segmenter lin+ormations: ou 9our trou0er des corrlations dans les donnes' %u.ourd#ui: le terme a tendance < caractriser tous les outils daide < la dcision: le V mineur V tant soit loutil lui-m@me soit lutilisateur' D"'" M#!#!1 Boutils deD %ussi connu sous le nom de 6DD B6no8ledge Disco0er; DataD: les outils de data mining 9ermettent de=traire de la connaissance des donnes en dcou0rant des modles: des rgles dans le 0olume din+ormation 9rsent dans les entre9rises' D"'" S,(.#!1 Possi$ilit donne < lutilisateur de na0iguer de manire ergonomique et intuiti0e dans un modle multidimensionnel' D"'" W"(%+ ,$% Entre9Ct de donnes' Ease de donnes s9ci+ique au monde dcisionnel et destine 9rinci9alement < anal;ser les le0iers Q $usiness U 9otentiels' D"'" W"(%+ ,$#!1 Processus de mise en Tu0re dun 9ro.et de Data 3are#ouse' DBA ?Data @ase .d)inistratorA Personne garante de la co#rence des donnes: des 9er+ormances du s;stme: de sa scurit''' Pour les outils dis9osant dun catalogue: cest le DE% qui le mettra en Tu0re' M )=-% (%-"'# !!%)ec#nique de modlisation consistant < modliser une $ase de donnes en la dcom9osant en entit et en relations corrlant ces entits ' MOLAP ?Mu'tidi)ensiona' -n #ine .na'*tica' ProcessingA "aractrise larc#itecture ncessaire < la mise en 9lace dun s;stme multidimensionnel en sa99u;ant sur les $ases de donnes multidimensionnelles' OLAP ?-n #ine .na'*tica' ProcessingA "aractrise larc#itecture ncessaire < la mise en 9lace dun s;stme din+ormation dcisionnel' -o99ose < 1L)P B1n Line )ransaction ProcessingD: adressant les s;stmes din+ormation transactionnels' 1L%P est sou0ent utilis 9our +aire r+rence e=clusi0ement au= $ases de donnes multidimensionnelles' En e++et: le conce9t a t +ormalis 9ar le Dr "odd: sous la +orme de douGe rgles: dcri0ant un modle idal danal;se din+ormation' *l a t montr de9uis quil a t 9ossi$le de res9ecter ces rgles ind9endamment de la structure de stoc&age utilise' De 9lus en 9lus: le terme est

eorges El !elou et "#ar$el %$ou 6#alil - 2004

27

Data Mining : techniques dextraction des connaissances

sou0ent utilis 9our dsigner 9lus gnralement le dcisionnel dans ses as9ects tec#niques' R%?,C'% "?est une demande en0o;e au gestionnaire de Ease de Donnes ser0eur' -i celui-ci 9ermet la gestion des donnes: le langage utilis est le -LL' Dans un conte=te din+ocentre: l?e=cution des questions sur un ser0eur est le 9lus sou0ent inter9rte' ROLAP ?/e'ationa' -n #ine .na'*tica' ProcessingA "aractrise larc#itecture ncessaire < la mise en 9lace dun s;stme multidimensionnel en sa99u;ant sur les tec#nologies relationnelles' SGBDR ?1*st,)e de Bestion de @ase de Donnes /e'ationne''eA 1n dialogue a0ec le - ED2 grAce < des requ@tes crites en -LL: langage asseG $ien standardis' Les - ED2 Bcertains disent -er0eur de $ases de donnesD les 9lus a0ancs dis9osent de mcanismes de gestion des contraintes d?intgrit a99els les )riggers: et aussi de ca9acit de traitements lis au= donnes, les Procdures -toc&es'

eorges El !elou et "#ar$el %$ou 6#alil - 2004

29

Data Mining : techniques dextraction des connaissances

Ei$liogra9#ie
Kean-Mic#el Mranco: #e Data Carehouse; 'e Data Mining; E;rolles: (44/ Mic#ael K'%' Eerr; et ordon -' Lino++: Data Mining:Techniques a&&'iques au )arDeting; : 'a 3ente et aux ser3ices c'ients: Masson: (445 2en Le+$ure et illes Zenturi: #e data )ining: E;rolles: (44N Pierre L0ine et Kean-"#arles Pomerol: 1*st,)es interactifs daide : 'a dcision et s*st,)es ex&erts; !erms: (440 Kean-"#arles Pomerol: #es s*st,)es ex&erts: !erms: (4NN 1li0ier "rutti et Eruno attino; Indicateurs et ta7'eaux de 7ord: %+nor: (443 !er0 -rie;=: #e 7ig 7ang des organisations: Editions "almann-L0;: (443 %nis Eoua;ad: Pierre-`0es Legris: #es a''iances stratgiques: Dunod: (44/ Martin Morest: rou9e "anadien *nno0ation: Brer 'e 1a3oir; 'e nou3eau dfi des organisations; Kourne dtudes du N %0ril (445: Maison des Pro+essions de Lille' A('#c-%$ *EEE Parall S Distri$uted )ec#nolog;: Para''e'is) s&eeds data )ining: (44P *nist "N2-: Po er Too's for Data Dri''ing: (44/ "o0er stor;: Data Marts : #o cost; High .&&ea': (44/ 1$.ecti+: @ussinessMiner : 'e Data Mining &our tous: (445 Le monde in+ormatique No0em$re (44/ Le monde in+ormatique M0rier (445 0( *n+ormatique ne(442 M0rier (445 et ne(444 du 22 Mai (44N Dcision MicroS2seau= ne24N Mars (44/ -ciences S 0ie micro - Kuin (44N

eorges El !elou et "#ar$el %$ou 6#alil - 2004

30

Vous aimerez peut-être aussi