Vous êtes sur la page 1sur 55

Spci ications!

"ve#oppement et $romotion

Ricco RAKOTOMALALA Universit Lumire Lyon 2 Laboratoire ERIC

Ricco %

Ensei&nant c'erc'eur (C)U*2+, En poste - #.Universit Lyon 2 / 0acu#t 1e Sciences Eco* Rec'erc'e 2 Spcia#isation "ata Minin& 3 Arbres45rap'es 1.in1uction 3 S#ection 1e variab#es 3 Autres aspects t'ori6ues 3 App#ications "ve#oppement et 1i usion 1e #o&icie#s #ibres "i usion 1e supports 1e cours

$LA)
7* "ata Minin& 2* Lo&icie# #ibre pour 6ue# pub#ic 8* Avant TA)A5RA 9* TA)A5RA a* Spci ications b* "ve#oppement c* $romotion :* ;ue#6ues scnarios 1e traitements <* Et #es autres #o&icie#s #ibres % +* A posteriori=

CRIS$>"M 7*?! Step>by>step "ata Minin& 5ui1e! S$SS $ub#ication Le processus EC" 2 E@traction 1e connaissances - partir 1e 1onnes K"" > KnoA#e1&e "iscovery in "atabases

;ue##es spci icits % Sources 1e 1onnes 2 Les bases 1e 1onnes 1e #.entreprise

Production 3 orientation service (ventes! comptabi#it! marBetin&=, 3 vo#ati#es

Stockage 3 orientation ana#yse 3 non>vo#ati#es 3 'istorises 3 a&r&ats

La &estion 1e #a vo#umtrie 1evient un aspect important C

"ata Minin& et In ormati6ue "cisionne##e Dusiness Inte##i&ence


L.informatique dcisionnelle (DI, 1si&ne #es moyens! #es outi#s et #es mt'o1es 6ui permettent 1e co##ecter! conso#i1er! mo1#iser et restituer #es 1onnes 1Eune entreprise en vue 1Eo rir une ai1e - #a 1cision et 1e permettre au@ responsab#es 1e #a strat&ie 1Eune entreprise 1.avoir une vue 1.ensemb#e 1e #.activit traite* ('ttp244 r*AiBipe1ia*or&4AiBi4In ormati6ueF1cisionne##e,

3 S#ectionner #es 1onnes (par rapport - un suGet et4ou une prio1e, 3 Trier! re&rouper ou rpartir ces 1onnes se#on certains critres 3 H#aborer 1es ca#cu#s rcapitu#ati s I simp#es J (totau@! moyennes con1itionne##es! etc*, 3 $rsenter #es rsu#tats 1e manire synt'ti6ue (&rap'i6ue et4ou tab#eau@ 1e bor1, RE$ORTI)5

La notion 1e mo1#isation I statisti6ue J (apprentissa&e! e@p#oration 1e 1onnes, est mise 1e cKt "ata Minin&
http://www.commentcamarche.net/entreprise/business-intelligence.php3

;ue##es spci icits % Les tec'ni6ues! se#on #eur ori&ine


Statisti6ues T'orie 1e #.estimation! tests Hconomtrie Maximum de vraisemblance et moindres carrs Rgression logistique, Ana#yse 1e 1onnes (Statisti6ue e@p#oratoire, "escription actorie##e "iscrimination C#usterin& Mt'o1es &omtri6ues! probabi#its AC$! ACM! Ana#yse 1iscriminante! CAL! =

In ormati6ue I Mac'ine Learnin& J Apprentissa&e symbo#i6ue Reconnaissance 1e ormes Une tape 1e #.inte##i&ence arti icie##e Rseau@ 1e neurones! a#&orit'mes &nti6ues=

In ormati6ue (Dase 1e 1onnes, E@p#oration 1es bases 1e 1onnes Mo#umtrie R&#es 1.association! moti s r6uents! =

Trs souvent! ces mt'o1es reviennent - optimiser #es mNmes critres! mais avec 1es approc'es 4 ormu#ations 1i rentes

;ue##es spci icits % Les tec'ni6ues se#on #eurs ina#its


Description : Trouver un rsum 1es 1onnes 6ui soit p#us inte##i&ib#e 3 statisti6ue 1escriptive 3 ana#yse actorie##e
Ex : moyenne dge des personnes prsentant un cancer du sein

Structuration : 0aire ressur&ir 1es &roupes IOnature#sOJ 6ui reprsentent 1es entits particu#ires 3 classification (c#usterin&! apprentissa&e non>supervis,
Ex : dcouvrir une typologie de comportement des clients dun magasin

Explication : $r1ire #es va#eurs 1.un attribut (en1o&ne, - partir 1.autres attributs (e@o&nes, 3 r&ression 3 apprentissage supervis
Ex : prdire la qualit dun client (rembourse ou non son crdit en !onction de ses caractristiques (revenus, statut marital, nombre den!ants, etc"

Association : Trouver #es ensemb#es 6ui reviennent souvent ensemb#e 3 rgles dassociation 3 motifs frquents
Ex : rayonnage de magasins, les personnes qui ac#$tent du poivre ac#$tent galement du sel

Les mt'o1es sont #e p#us souvent comp#mentaires C

;ue##es spci icits % Traitement 1es 1onnes non structures

R$le %ondamental de la prparation des donnes Prdiction Structuration Description Association

Les applications Filtrage automatique des e-mails (spams, ) Reconnaissance de la langue une centrale tlp onique Anal!se des mammograp ies "tc#

;ue# espace pour #es #o&icie#s #ibres % Aspects 1u "ata Minin& pro#i i6ues en 1ve#oppement

"ve#opper 1es mt'o1es au cPur 1es entrepKts 1e 1onnes


Les D*"* sont surtout intresss par #e 1ve#oppement 1es p#ate> ormes D*I* $ro@imit trs (trop, orte avec #es app#ications in1ustrie##es (ORACLE! S;L>Server=, "ve#oppement #our1s! peu va#orisab#es pour #. I apprentissa&e automati6ue J

Traitement 1es 1onnes non structures


Trop spci i6ue / Impossib#e 1e 1ve#opper un outi# &nri6ue $ro@imit 1es app#ications in1ustrie##es

"ve#opper 1es outi#s &nri6ues 1e traitement 1e 1onnes


Int&rer 1es mt'o1es avec 1es ina#its (ori&ines, 1i rentes $ouvoir #es aire cooprer entre e##es Tester et 1i user une nouve##e mt'o1e pub#ie "ve#oppement 1e #a p#ate> orme peu onreuse! ce 6ui est 1i ici#e c.est #e 1ve#oppement 1es a#&orit'mes 1e traitement (ex" %&'E, ()*ME et &'+,& M*)ER reposent en partie sur le moteur -E(&

Lo&icie#s #ibres 1e "ata Minin& ;ue# pub#ic et pour6uoi %

Un #o&icie# pour #.ensei&nement 2 #e pro i# IOc'ar& 1.tu1esOJ


Les cours! e@p#ication 1es mt'o1es! outi# p1a&o&i6ue Les tu1es IOre##esOJ > #es IO1ossiersOJ > #es c'erc'eurs 1es autres 1omaines
(c!" tutoriaux tudes de cas

Une p#ate> orme pour #a rec'erc'e


$#ate> orme 1.e@primentation / Tester et comparer 1es mt'o1es Mo1u#arit et accs au co1e / $ro&rammer ses propres mt'o1es
(c!" tutoriaux valuation des mt#odes

Un outi# p1a&o&i6ue pour #.apprentissa&e 1e #a pro&rammation


Spci ications et conception 1e ce type 1e #o&icie# > Appren1re par #.e@emp#e ConnaQtre #es outi#s et #es bib#iot'6ues types SuGets 1e sta&es pour #es tu1iants
(c!" le pro.et /anagra0

Lo&icie#s #ibres 1e "ata Minin& Open Source %

Ma#i1er #e co1e R va#i1er #es pub#ications


Comparer #es rsu#tats Lecture 1u co1e par 1.autres c'erc'eurs (e@* 1u te@t minin& par S", Repro1uire IOe@actementOJ #es e@primentations (e@* tira&e a#atoire,

Comparer #es imp#mentations


Comparer #es interprtations 1.un mNme prob#me (e@* Re#ie Optimiser #e co1e avec 1i rentes versions SEKA,

Outi# ouvert R Outi# vivant


Intro1uire ses propres a#&orit'mes "iscuter sur #a base 1e prototypes et 1.vo#utions Monter et parta&er 1es bib#iot'6ues types (e@* &nrateurs a#atoires! onctions 1e rpartitions! pour6uoi pas 1es bib#iot'6ues 1e "ATA MI)I)5 %=,

SI$I)A / Une #on&ue #i&ne 1e #o&icie#s 11ies au@ 5rap'es 1.In1uction I1e initia#e 2 imp#menter #es 5rap'es 1.In1uction (5rap'es Latticie#s, $icar1 (7T<:,! Terrenoire! Tounissou@!=! Ui&'e1 (7TV:,

Ui&'e1 (7TV:=, $i#ot par interprteur 1e comman1es 0ormat spci i6ue 1e ic'iers Mt'o1e SI$I)A $as 1e 1i usion institutionne##e Mersion 7*? - 2*: / 7< bits (S8*? et W, Ui&'e1 (7TT9>7TT+, $onsar1! Dac (7TT9>7TT:, / RaBotoma#a#a (7TT< / 7TT+, $i#ot par menu 0ormat spci i6ue 1e ic'iers 5nra#isation au@ arbres 1e 1cision "i use sur Internet Mersion IORec'erc'eOJ (ou version 8*?, / 82 bits (ST: et W, RaBotoma#a#a (7TTV > 2???,= $i#ot par menu 5estion IOper ormanteOJ 1es 1onnes! accs - 1i rents ormats 5nra#isation au@ autres mt'o1es supervises (R)A! L"A! R&#es! etc*, "i use sur Internet Mersion 9*? (MCubiX, Socit "ia&nos (2??7=, "ia&ramme 1e traitements (&nra#isation 1e #a IO i#ireOJ, Inter ace avec une S5D" (Interbase, 5nra#isation - toutes #es tec'ni6ues statisti6ues (mt'o1es actorie##es! c#usterin&! etc*, "i usion commercia#e

SI$I)A I Mersion Rec'erc'e J Un outi# per ormant mais comp#i6u! qui na pas vraiment c#oisi son camp

I# n.y a pas 1.6uiva#ent &ratuit au mon1e CCC I# aut avoir #.esprit tortueu@ 1.un in ormaticien pour compren1re son onctionnement $rob#me 1e mmoire sur &ran1es bases - cause 1u c'oi@ 1e #.interactivit

TA)A5RA (2??8, / )ouveau 1part ou recommencement % " inir un ca'ier 1e c'ar&es #e p#us prcis possib#e
Miser sur #a simp#icit 1e onctionnement
7* 2* 8* 9* :* Insta##ation simp#i ie / $as 1e serveurs #our1s - insta##er 5estion simp#i ie 1es 1onnes >> 0ormat te@te et accs au ormat tab#eur 0onctionnement par 1ia&ramme 1e traitements Couvrir #es statisti6ues! #.ana#yse 1e 1onnes et #e 1ata minin&* "e manire uni ie* Rsu#tats #isib#es! en a16uation avec #es IOstan1ar1sOJ! possibi#it 1e #es repren1re 1ans un traitement 1e te@te ou un tab#eur par copier4co##er

Mettre 1 initivement 1e cKt #es aspects IOpro essionne#sOJ 1es #o&icie#s 1e "*M*
7* 2* 8* 9* Inter aYa&e ort avec #es S5D" "p#oiement et mise en pro1uction 1es rsu#tats Reportin& 1ynami6ue et per ormant E@p#oration &rap'i6ue vo#ue et interactive 1es 1onnes

Simp#icit &a#ement pour #e pro&rammeur


7* 2* 8* Simp#i ier - #.e@trNme #e co1e permettant 1.aGouter une nouve##e mt'o1e 1.ana#yse Minimiser #e co1e 11i - #a &estion 1es 1onnes et 1e #.inter ace $ouvoir int&rer aci#ement n.importe 6ue##e tec'ni6ue traitant 1es tab#eau@ IOin1ivi1us @ variab#esOJ

Simp#i ier #es inter aces Le 1ia&ramme 1e traitements

$i#ota&e par menu


Simp#e au premier abor1 mais in&rab#e 1s 6ue #e #o&icie# &a&ne en comp#e@it Impossibi#it 1e &ar1er #a trace 1.une ana#yse comp#te et 1onc 1e #a repro1uire E@i&e une 1ocumentation comp#te et constamment - Gour (1pen 2tat 3 2tat 45 sont dans la m6me situation

Lan&a&e 1e pro&rammation
Toute #a puissance 1.un #an&a&e 1e pro&rammation L.accs au #an&a&e est une barrire - #.entre 6ui rebute certains L.int&ration 1ans R est certainement #a mei##eure so#ution 1ans ce cas

"ia&ramme 1e traitements
IO$ro&rammationOJ visue##e > Enc'aQner #es traitements Mise - Gour aci#ite 1u #o&icie# par a1Gonction 1e composants 5ar1er #a trace 1.une ana#yse comp#te et pouvoir #a repro1uire aci#ement $ossibi#it 1e ra&menter #a 1ocumentation par composants 7est un standard (ex" 2+&8, 2&29EM, 2+2297'EM -E(&, 1R&):E,

Inter ace et onctionna#its 0enNtres interactives et personna#ises vs* sorties te@tes &nra#ises

0enNtres personna#ises pour c'a6ue traitement


Trs user> rien1#y Mais pro&rammation ( asti1ieuse, 6ui #oi&ne 1u 1ve#oppement 1es mt'o1es 7 mt'o1e R 7 enNtre 1e visua#isation nouve##e - 1ve#opper Optimisation trs contrai&nante! occupation mmoire! etc*

0enNtre stan1ar1ise / 0ormat te@te (a&rment 1e LTML,


Rbarbati (%, mais con orme au@ 1escriptions 1es mt'o1es 1ans #es ouvra&es Occupation mmoire 6uasi>nu##e Copier co##er stan1ar1is vers #es tab#eurs et traitement 1e te@te Stan1ar1isation 1e #a pro&rammation 1es mt'o1es

Inter ace et onctionna#its Accs au@ 1onnes

Importation 1e ic'iers te@te et ormat propritaire


Te@te avec sparateur tabu#ation est un stan1ar1 reconnu (Tab#eur EXCEL, Mais Ya reste un prob#me rcurrent (:?Z 1es 6uestions sur SI$I)A, Re aire #.import - c'a6ue ois La trans ormation au ormat binaire est ma# connu (ma# 1ocument,

Inter aYa&e avec un tab#eur


$ossibi#it aussi 1e branc'ement e@terne sur un ic'ier te@te ou un ic'ier XLS On peut m-G #e ic'ier source sans re aire #e traitement Macro>comp#mentaire 1ans EXCEL (c * en6uNte K"",

Insta##ation simp#e et automatise Tout 1oit onctionner 1u premier coup

Tout 1oit Ntre automatis


L.uti#isateur ne 1oit Gamais avoir - intervenir - #.insta##ation Attention au@ bib#iot'6ues e@ternes (S5D"! TCL4TK! $[TLO)! etc*, C'oisir #a con i&uration au pire cas

R1uire #es bib#iot'6ues e@ternes


Dib#iot'6ue e@terne compi#e R 1pen1ance accrue Dib#iot'6ue payante R pie1s et poin&s #is (y compris sur #es arc'itectures, Miser sur 1es versions stab#es et sources #ibres Attention - #a &estion 1es mises - Gour

Mettre 1es e@emp#es 1e traitements


L.uti#isateur #ance touGours I pour voir J sans #ire #a 1ocumentation

Imp#mentation L.i1e maQtresse est #a stan1ar1isation pousse - #.e@trNme

C#asses Structures 1e ca#cu#

C#asse Instance 1e #ancement 1es ca#cu#s

C#asse 0enNtre 1e paramtra&e

0enNtre 1e visua#isation

Enre&istrer #a mt'o1e
La &estion 1es versions 1evenait cauc'emar1es6ue au i# 1u temps

C#asse Insrer 1ans #a #iste 1es mt'o1es

C#asse Structure 1e ca#cu#

C#asse 5estion 1e composant I1e 1e I p#u&>in J

0enNtre 1e paramtra&e

Enre&istrement 2 ic'ier e@terne 1e con i&uration L.a1Gonction 1.une tec'ni6ue est trs peu contrai&nante 7:: mt'o1es - ce Gour (7*9*2+,

Imp#mentation $#us #oin 1ans #a mo1u#arit 2 #e systme 1es p#u&ins

La so#ution i1a#e %
L.app#ication mre est une matrice 6ui &re et transmet #es 1onnes Les tec'ni6ues sont 1es proc1ures pro&rammes sous orme 1e bib#iot'6ues e@ternes

Mais 1es contraintes ortes


Or&anisation u#tra>ri&oureuse 1es protoco#es $assa&e 1es in ormations et 1es 1onnes A ic'a&e 1es rsu#tats

Dre =
Souvent r1'ibitoire! a#ors 6ue #.obGecti tait 1.o rir un outi# mo1u#aire Intressant si #es p#u&ins sont essentie##ement 1es proc1ures 1e ca#cu#s 6ui renvoient 1es obGets stan1ar1iss (e@* pacBa&e R, Et 6u.une vraie communaut s.or&anise autour 1u #o&icie#

Imp#mentation ;ue#s outi#s 1e pro&rammation %

Spci ications
Outi# #ibre (;a co<te moins c#er, Lar&ement 1i us (pour avoir des programmeurs, Avec une #ar&e bib#iot'6ue 1e c#asses (calculs, conteneurs, etc", ;ui permet 1e aire 1es inter aces a&rab#es! simp#ement! rapi1ement

$our6uoi "EL$LI pour Tana&ra %


A #.po6ue! "EL$LI <*? $ERSO tait &ratuite Cours 1e "EL$LI en L8 et M7 1ans #e 1partement I In ormati6ue / Statisti6ue J Accs au@ anciennes bib#iot'6ues 1e ca#cu#s! va#i1es 1epuis #on&temps 1GConnaissance ten1ue 1es bib#iot'6ues #ibres (Turbo $oAer! etc*, $ermet 1e aire 1es inter aces a&rab#es! simp#ement! rapi1ement A inits personne##es=

$uis6ue #e #o&icie# e@iste= =autant #e ren1re 1isponib#e - 1.autres*

Hcrire un artic#e 1e r rence


Moi#- touGours une pub#ication 1e p#us Mar6uer #e coup en annonYant #e #o&icie# C.est #a r rence 6ue citeront #es uti#isateurs

"ocumenter #e #o&icie#
Les mt'o1es 6ui sont int&res Leur mise en Puvre (sous orme 1e tutorie#, Attention au 1an&er 1u I manue# 1e r rence / manue# 1e #.uti#isateur J touGours en retar1 1.une version

Monter un site Aeb attrayant (attracti ,


La visibi#it internet est primor1ia#e Le t#c'ar&ement 1u #o&icie# n.est pas #e seu# enGeu

=et #a promotion 1ans #es con rences


&teliers, dmonstrations, contacts c#erc#eurs, mailing9 list, etc"

"ocumentation Mettre - pro it #.or&anisation 1u #o&icie# en composants

SI$I)A > Une 1ocumentation c#assi6ue 1i ici#e - aire vivre 0asti1ieuses mises - Gour Copies 1.cran - re aire avec #es nouveau@ menus

TA)A5RA / "i1acticie#s I tu1es 1e cas J 0onctionnement4Or&anisation 1u #o&icie# Gamais remis en cause )e Gamais avoir - re aire #es anciennes 1oc* Se oca#iser sur #es mt'o1es et #es aspects p1a&o&i6ues (#ecture 1es rsu#tats! #es #ments 1e r #e@ion! etc*,

"ocumentation > Am#iorer #.or&anisation 1es 1i1acticie#s

$#usieurs possibi#its 1.in1e@ation (et 1onc 1e rec'erc'e, 3 Cat&ories 3 Mots>c#s 3 R rences en #i&ne (cours, etc" 3 R rences bib#io&rap'i6ues
(ouvrages, articles de r!rence, etc"

"ocumentation A##er p#us #oin encore en proposant 1es supports 1e cours

"escription appro on1ie 1es tec'ni6ues 0ic'iers 1e 1onnes Liens e@ternes! autres 1escriptions

"i1acticie# TA)A5RA

"ocumentation Di#an Tana&ra Septembre 2??V Hcriture 1u ca'ier 1e c'ar&es


\anvier 2??8
$#usieurs prototypes 1ve#opps (CWW! \ava! "e#p'i,

"but 1u 1ve#oppement
\ui##et 2??8 Moteur interne i& 1epuis in ao]t 2??8

Cration 1u site Aeb et mise en #i&ne


\anvier 2??9 (_2: visiteurs par Gour sur 2??9,

Tec'ni6ues imp#mentes (Sept* 2??V / Mersion 7*9*2+,


7:: mt'o1es stat*! e@p#oratoires et 1ata minin&

"ocumentation
_7?? 1i1acticie#s en ranYais! +? en an&#ais

Misites sur #e site Aeb Tana&ra e@c#usivement / \anv* ^ Sept* 2??V


_7:: par Gour en moyenne
(- titre 1e comparaison! bi#an sur #a prio1e sept* - 1c* 2??: 2 +? visiteurs par Gour,

Mira&e important 1but 2??+ 2 mise en #i&ne 1e supports 1e cours

"ocumentation Le site Tana&ra ait partie 1.un ensemb#e 'ttp244eric*univ>#yon2* r4_ricco


;ue#s visiteurs %

Misites sur #e 1omaine ( v* - ao]t 2??V,

(Mon1e aca1mi6ue en maGorit,

;ue##es pa&es %

Tana&ra 7*9*22 Scnarios 1.uti#isation

Arbre 1e 1cision Traitement 1u ic'ier Save 1e Dreiman Scorin& "tection 1es c#ients I iab#es J en Dan6ue Mesures 1.association pour #es variab#es nomina#es Consommation 1e v'icu#es

SEKA La r rence

R rence mon1ia#e Dib#iot'6ue 1e mt'o1es trs ric'e Essentie##ement mac'ine #earnin& AGout 1e mt'o1es AGout 1e c#asses W recompi#ation Accs comp#i6u - #.inter ace Atout 2 appe# 1es c#asses en e@terne

Mo1e e@p#orer

Mo1e KnoA#e1&e #oA

ORA)5E Inter ace a&rab#e! systme 1e p#u&ins! #an&a&e interprt

Inter ace a&rab#e et per ormante Outi#s &rap'i6ues Essentie##ement mac'ine #earnin& Atout (7, 2 mt'o1e R p#u&ins Atout (2, 2 interprteur pyt'on

Mo1e Script Mo1e Misua# $ro&rammin&

K)IME Inter ace a&rab#e! p#u&ins SEKA et R=

Inter ace a&rab#e et per ormante Outi#s &rap'i6ues Outi#s 1e manipu#ation 1e 1onnes $as 1e pro&rammation possib#e Atout (7, 2 mt'o1e R p#u&ins (A$I, Atout (2, 2 accs au@ mt'o1es SEKA et R (C,

Mo1e SorB #oA

C'oi@ 1.arc'itecture on1amenta#


ObGecti TA)A5RA! empi#er 1es mt'o1es C'oisir une arc'itecture 6ui permet 1e aci#iter #.aGout 1e mt'o1es (composants, Minimiser #a pro&rammation I anne@e J (inter aces visue##es! accs e@ternes! etc*,

Communaut 1e 1ve#oppeurs
I# aut une or&anisation trs ri&oureuse (et Gouer #e rK#e 1e I c'e 1e proGet J %, c.est un travai# - p#ein temps

"ocumentation! primor1ia#e pour #a 1i usion


Sur #es mt'o1es! sur #a mise en Puvre Centrer #a 1ocumentation sur #es mt'o1es et non sur #e #o&icie# H#ar&ir #e pub#ic 2 c'erc'eur! tu1iants! personnes 1.autres 1omaines! etc*

Vous aimerez peut-être aussi