Vous êtes sur la page 1sur 27

Prtraitementdesdonnes

Pourquoi P iprtraiter t it l lesd donnes ? Nettoyagedesdonnes Intgrationettransformation Rductiondesdonnes Discrtisationetg gnrationdehirarchiesde concepts

Pourquoiprtraiterlesdonnes?

Donnes relles souvent incompltes:valeursmanquantes manquantes,donnes simplifies bruites:erreursetexceptions incohrentes i h t :nommage,codage d Rsultatsdelafouilledpendentdelaqualitdes donnes

Principalestapesdansleprtraitementdesdonnes

Nettoyage Intgration Transformation Rduction


transactions tra
Data cleaning

Data integration

Data transformation

2, 32, 100, 59, 48

0.02, 0.32, 1.00, 0.59, 0.48

Discrtisation

Data reduction attributes A1 A2 A3 ... T1 T2 T3 T4 ... T2000

transactions s

A126

A1 T1 T4 ... T1456

attributes A3 ... A115

Donnesmanquantes

Donnes nondisponibles certainsattributsn nont ontpasdevaleur Causes: mauvaisfonctionnementdelquipement incohrencesavecdautresdonnesetdonc supprimes nonsaisiescarnonoumalcomprises considrespeuimportantesaumomentdela saisie ii Cesdonnesdoiventtreinfres

Commentremplirlestrous?

Ignorer I le l tuple t l

peuefficacequandlepourcentagedevaleursmanquantesestlev Laborieuxouinfaisable ex: inconnue ,unenouvellecatgorie?

Complter C l manuellement ll l lesd donnes

Utiliseruneconstanteglobale

Utiliserlamoyennedelattribut y delattributp pourlammeclasse Utiliserlamoyenne

mieux formuleBaysienneouarbrededcision

Utiliserlavaleurlaplusprobable

Donnesbruites

B Bruit i :erreurouvariance i alatoire l i d dunevariable i bl mesure Causes:


Instrumentdemesuredfectueux Problmedesaisie Problmedetransmission Limitationtechnologique Incohrencedanslesconventionsdenommage enregistrementdupliqus d donnes incompltes i l donnesincohrentes

Autresproblmes:

Correctiondubruit

Par P partitionnement titi t(binning) (bi i )


trieretpartitionnerlesdonnes li lisser l lespartitions titi parla l moyenne,la l mdiane, di les l b bornes, dtecteretsupprimerlesexceptions dtectiondesvaleurssuspectesetvrificationhumaine lisserlesdonnespardesfonctionsdergression

Clustering

Inspectionhumaineetinformatiquecombine

Rgression

Partitionnementsimple:lissage

quilargeur(distance):n intervallesdemmetaille quiprofondeur:n intervallescontenantlemmenombrede valeurs *donnestries:4, ,8, ,9, ,15, ,21, ,21, ,24, ,25, ,26, ,28, ,29, ,34 *quiprofondeur : partition1:4,8,9,15 p partition2:21,21,24,25 partition3:26,28,29,34 *lissageparlamoyenne: partition1:9,9,9,9 partition2:23,23,23,23 partition3:29,29,29,29 *lissageparlesbornes: partition1:4,4,4,15 partition2:21,21,25,25 partition3:26,26,26,34

Clustering:suppressiondesexceptions

Rgression

10

y
Y1

Y1

y=x+1

X1

Intgrationdesdonnes

11

Intgration I t ti des d donnes d :

combinaisondediffrentessourcesenuneseule intgrer i t les l mta t donnes d de d diffrentes diff t sources problmedenommage:identifierlesdiffrentsnoms desmmesdonnesrelles,ex:num_client client_id pourlesmmesentitsrelles,lesvaleursdesattributs provenantdesourcesdiffrentessontdiffrentes causes:reprsentationdiffrentes,chelles diffrentes,ex:cmetpouces

Intgrationdesschmas:

Dtecteretrsoudrelesconflitsdevaleurs

Gestiondelaredondance

12

frquentelorsdelintgrationdeplusieurs sourcesdedonnes lemmeattributpeutavoirdesnoms diffrents unattributpeuttredduitdunautre peut tt tredt dtecte t pard desanalyses l d de corrlation

Transformationdesdonnes

13

Li Lissage:rduire d i l lebruit b itdans d les l donnes d Agrgation:simplification,constructiondecubes dedonnes Gnralisation G li ti :hi hirarchie hi d deconcepts t Normalisation:miselchellep pouravoirunpetit p intervallespcifi min i max zscore miselchelledcimale

Normalisation

14

minmax
v min i A v' = (new _ maxA new _ minA) + new _ minA maxA minA

zscore
v mean A v'= stand _ dev
A

miselchelledcimale
v v' = j 10

avecj lepluspetitentiertqmax(|v|)<1

Rductiondesdonnes

15

Lafouillededonnes peuttre trs longuesurles donnescompltes Rductiondesdonnes

obtenirunereprsentationrduitedujeudedonnes, pluspetiteenvolume,maisquiproduitlesmmes(ou presque)rsultatsanalytiques Agrgationparcubesdedonnes Rductiondedimension Rductiondenumrosit Discrtisationetgnrationdehirarchiesdeconcepts

Stratgies S i

Rductiondenumrosit

16

Mthodes paramtriques supposequelesdonnessuiventunmodle modle. Estimeretstockerseulementlesparamtresdu modle modleloglinaire:approximationdela distributiondesvaleursdansunespacemulti dimensionnel Mthodesnonparamtriques lesdonnesnesuiventpasunmodle principales:histogrammes,clustering, chantillonnage

Histogrammes

populaire l i diviserenintervalleset stockerlamoyenne (somme) ( ) miseenuvreoptimale surunedimensionpar programmation dynamique

40 35 30 25 20 15 10 5 0
10000 30000 50000 70000 90000

Echantillonnage

18

Permetun nalgorithmedesexcuter se c terenun ntemps souslinairedelatailledesdonnes Choixdunsousensemblereprsentatifdes donnes

potentiellementmauvaisdanslecasdebiaisdansles donnes chantillonnagestratifi approximerlepourcentagedechaqueclasse(ou souspopulationdintrt) d intrt)danslejeudedonnes complet utilisdanslecasdedonnesbiaises

Mthodesdchantillonnageadaptatives

Lchantillonnagepeutnepasrduirelenombre d t / ti dentres/sorties

chantillonnage

19

Donnesbrutes

Echantillonnage

20

Donnesbrutes

Echantillonstratifi

Discrtisation

21

T Trois i types t dattributs d tt ib t Nominaloucatgorique:valeursdun d unensemble Ordinal:valeursdunensembleordonn Continu:rels Discrtisation diviserlintervalledevaleurspossiblesensous intervalles certainsalgorithmesacceptentseulementdes attributscatgoriques rduitlevolumedesdonnes prparationpourdefuturesanalyses

Discrtisationethirarchiedeconcepts

22

Discrtisation rduitlenombredevaleursd dun unattribut (continu)donn Hi Hirarchie hi de d concepts t rduitlesdonnesencollectantetremplaant lesconceptsdebasniveau(ge)pardes conceptsde d niveaudabstraction d b plus l lev l (jeune,snior)

Discrtisationetgnrationdehirarchiedeconceptspourdesdonnesnumriques

23

Partitionnement P titi t(binning) (bi i ) Histogramme Clustering Baseentropie Segmentation g par p p partitionnementnaturel

Segmentationparpartitionnementnaturel

24

L rgle La l 345peuttre utilise ili poursegmenterdes d donnes d numriquesenintervallesrelativementuniformes Siunintervallecouvre3,6,7ou9valeursdistinctesauchiffre plussignificatif g alorsp partitionnerlintervalleen3intervalles lep demmelargeur 2,4 4,ou8valeursdistinctesalors Siunintervallecouvre2 partitionneren4intervalles Siunintervalle i t ll couvre1, 1 5, 5 ou10valeurs l distinctes di ti t alors l partitionneren5intervalles

Rgle345:exemple

25

count

Step 1: Step 2: Step 3:

-$351 Min msd=1,000

-$159 Low (i.e, 5%-tile) Low=-$1,000

profit

$1,838 High(i.e, 95%-0 tile)

$4,700 Max

High=$2,000 (-$1,000 - $2,000)

(-$1,000 - 0)

(0 -$ 1,000)

($1,000 - $2,000)

Step 4:

(-$400 -$5,000)

(-$400 - 0) (-$400 -$300) (-$300 -$200) (-$200 -$100) $100) (-$100 0) (0 $200) ($ ($200 $400) ($400 $600)

(0 - $1,000) ($1,000 $1,200) ($1,200 ($1 200 $1,400)

($1,000 - $2, 000)

($2 000 - $5, ($2,000 $5 000)

($2,000 $3,000) ($3,000 $4,000) ($4,000 $5 000) $5,000)

($1,400 $1,600) ($800 $1,000) ($1,600 ($1,800 $1,800) $2,000)

($600 $800)

Gnrationdehirarchiedeconceptspourdesdonnesnominales

26

S Spcification ifi ti dun d ordre d partiel ti lpardes d utilisateurs tili t oudesexperts ex:GeneOntology Spcification S ifi ti dune d portion ti de d hirarchie hi hi parle l groupageexplicitedesdonnes S Spcification ifi ti dun d ensemble bl dattributs d tt ib t sansordre d partiel Spcification S ifi ti partielle ti ll d dunensemble bl

Spcificationdunensembledattributs

27

Lahirarchie deconceptspeut tregnre automatiquementensebasantsurlenombrede valeursdistinctesdunattribut.

country province_or_state city street

15valeursdistinctes 65valeursdistinctes 3567valeursdistinctes 674339valeursdistinctes

Vous aimerez peut-être aussi