Académique Documents
Professionnel Documents
Culture Documents
Arta si tiina de a ob
obine
Cuno
Cuno
tin
tine din Date
10/21/2013
10/21/2013
Explozia Datelor
Cresterea anuala a cantitatii de informatie stocata este estimata la un procent
anual de aproximativ ~30% ea dublndu-se practic la 20 luni!
UC Berkeley estimeaza ca in 2010 sau produs 1 zettabytes (1 miliard
2,000,000,000,000,000 bytes
France Telecom are baze de date cu informaii legate de telefonia mobila si fixa
de: ~3PB
10/21/2013
Explozia Datelor
Lucruri mai putin cunoscute despre Google
1. Numele de Google este o greseala de ortografie. Initial trebuia sa se numeasca
Googol, un termen din matematica, care reprezinta un numar mare, egal cu 10100, adica 1
urmat de 100 de zerouri. Termenul a fost inventat de Milton Sirotta, nepotul de 9 ani al
matematicianului american Edward Kasner.
2. Google primeste in jur de 20 de milioane de cereri in fiecare zi, din toata lumea,
inclusiv Antarctica si Vatican. Pagina de inceput apare in 116 limbi diferite, inclusiv in latina,
urdu si yoruba. De fapt, Google are cea mai mare retea de traducatori din lume.
3. Ar dura 1.570.700.000 ani ca o persoana sa caute in toate cele 1.000.000 miliarde de
pagini ale motorului de cautare Google. Software-ul Google o face in 0.5 secunde.
4. Exista un site numit Google Moon, care cartografiaza suprafata lunara si indica locul exact
unde a aselenizat naveta Apollo.
5. Firma Keyhole, care se ocupa cu achizitia de imagini din satelit, pe care Google a
cumparat-o in Octombrie 2004, a fost fondata de CIA. Tehnologia acestei firme face posibila
functionarea programului Google Earth, care reda rapid imagini preluate de satelit din toata
lumea.
10/21/2013
Explozia Datelor
Pe un DVD pot fi stocate
10/21/2013
10/21/2013
10/21/2013
10/21/2013
10/21/2013
10
Analiza Datelor
Inteligent
Artificial,
Machine
Learning
Statistic
Data Mining
Baze de Date
10/21/2013
11
10/21/2013
12
Integrarea
10/21/2013
Date
Integrate
Date
relevante
activitii
Selecia
Minarea
Tipare
Evaluarea
13
Corelatii
Grupare
Asociatii
10/21/2013
14
Modele corelationale
Categorice
X2
Nominale
X3
Numerice
Y1
X1
Y2
Categorice
Modele de tip
Clasificare
Y3
Nominale
0, 1, da, nu,
Variabile de Intrare
sau
Variabile Independente
sau
Atribute
10/21/2013
Variabile de Iesire
sau
Variabile Dependente
sau
Clase
15
Data Mining
Clasificare
Tehnica prin care se ataeaza un element necunoscut la un set
de clase predefinite (cunoscute)
10/21/2013
16
Data Mining
Modele Corelationale
- principiu Model corelational
w0 + w1 x + w2 y >= 0
Se calculeaz
calculeaz wi din date
astfel inc
inct sa fie minimizata
eroarea medie patratica
Da posibilitatea de a obtine
informatii legate de legatura
dintre atributele ce
caracterizeaza obiectele
Nu este suficient de flexibila
17
Data Mining
Modele Corelationale
- exemplu Considerm un set de date de volum n. Fiecare element din setul de date poate fi caracterizat de
un ansamblu de atribute. n setul de date relative la performanele sistemelor de calcul aceste
atribute sunt: memoria principala, memorie cache, etc.
Predicia performanelor CPU avem 209 date n set (7 atribute)
10/21/2013
18
Data Mining
Arbori de decizie
- principiu if X > 5 then albastru
else if Y > 3 then albastru
else if X > 2 then verde
else albastru
10/21/2013
19
Data Mining
Arbori de decizie
- exemplu Outlook
Temp.
Hum.
Windy
Class
Atribute
V
a
l
o
r
i
sunny
sunny
85
80
85
90
false
true
Dont Play
Dont Play
overcast
rainy
rainy
rainy
overcast
sunny
sunny
rainy
sunny
overcast
overcast
rainy
83
70
68
65
64
72
69
75
75
72
81
71
86
96
80
70
65
95
70
80
70
90
75
91
false
false
false
true
true
false
false
false
true
true
false
true
Play
Play
Play
Dont Play
Play
Dont Play
Play
Play
Play
Play
Play
Dont Play
outlook
outlook
overcast
sunny
rain
Play
4
2
3
Dont Play
0
3
2
windy
true
false
Play
3
6
Dont Play
3
2
windy
10/21/2013
20
Data Mining
Grupare
- principiu Gruparea (Cluster analysis) reprezinta o tehnic de imprire a
unui set de date pentru care nu exista nici o clas predefinit
ntr-un set de clase - grupuri
Venit
Varsta
10/21/2013
21
Data Mining
Grupare
- exemplu 1 -
Se d
d:
Baza de date de clien
clieni care con
conine un istoric al
achiziiilor facute
achizi
Scop:
Gsirea grupurilor de clien
clieni cu o comportare
similar
similar
Gasirea clien
clienilor cu un mod de cump
cumprare
neobinuit
neobi
10/21/2013
22
Data Mining
Grupare
- exemplu 2Income
Magazine
Watch
Promotion
Life
Insurance
Promotion
Credit
Card
Insurance
Range
($)
4050K
3040K
4050K
3040K
5060K
2030K
3040K
2030K
3040K
3040K
4050K
2030K
5060K
4050K
2030K
Promotion
Sex
Yes
Yes
No
Yes
Yes
No
Yes
No
Yes
Yes
No
No
Yes
No
No
No
Yes
No
Yes
No
No
No
Yes
No
Yes
Yes
Yes
Yes
Yes
No
No
Yes
No
Yes
Yes
No
Yes
No
No
Yes
Yes
Yes
Yes
No
Yes
No
No
No
Yes
No
No
Yes
No
No
No
No
No
No
No
Yes
Male
Female
Male
Male
Female
Female
Male
Male
Male
Female
Female
Male
Female
Male
Female
Age
45
40
42
43
38
55
35
27
43
41
43
29
39
55
19
23
Data Mining
Asociatii
- principiu Progresul n tehnologia codurilor de bare a fcut posibil ca firmele de
comercializare a produselor s colecteze i s stocheze cantiti imense de date
despre vnzri, referite ca i basket data basket market (date despre coul de
cumprturi)
Descoperirea regulilor de asociere are ca scop descoperirea unui set de atribute
24
Data Mining
Asociatii
- exemplu Avnd o baz de date de tranzacii ale clienilor
i fiecare tranzacie fiind o list de obiecte
(cumprturile unui client ntr-o vizit la
magazin). Gsete toate regulile care coreleaz
prezena unui set de obiecte cu alt set de
obiecte.
Transactia 1:
Transactia 2:
{CD, Games}
Transactia 3:
{CD, DVD}
Transactia 4:
Transactia 5:
{Books, DVD}
Transactia 6:
{CD, DVD}
Transactia 7:
{Books, DVD}
Transactia 8:
Transactia 9:
10/21/2013
If se cumpara Books
then se cumpara DVD
with support 55.6% and confidence 83.3%
Obs.
Suportul
Confidenta
25
Corelare
Multiple Linear Regression
Principal Components Regression
Partial Least Square
Neural Networks
Regression Tree (CART, MARS, )
K-Nearest Neighbors
Support Vector Machines
Asociere
A Priori
Markov Chain
Hidden Markov Models
26
27
10/21/2013
28
10/21/2013
29
1. Definirea problemei
Controlul unui brat robotic prin intermediul semnalelor
EMG culese de pe muschii biceps si triceps.
Contractia
muschiulara
Biceps
Triceps
Supination
H
L
H
L
Flexion
Extension
Pronation
10/21/2013
Supination
Pronation
Flexion
Extension
30
10/21/2013
31
3. Explorarea datelor
Scatter Plot
Triceps
Record#
Flexion
10/21/2013
3. Explorarea datelor(cont.)
(cont.)
Scatter Plot
Biceps
Record#
Flexion
10/21/2013
10/21/2013
34
5. Construirea modelului
Clasificare
1R
Decision Tree
Nave Bayesian
K-Nearest Neighbors
Neural Networks
Linear Discriminant Analysis
Support Vector Machines
10/21/2013
35
1R
Construieste cea mai buna regula utilizand urmatorul algoritm in pseudo-cod:
For fiecare atribut
For fiecare valoare a acestui atribut, construieste o regula astfel:
contorizeaza de cate ori apare in fiecare clasa
gaseste cea mai frecventa clasa
construieste o regula prin care se asigneaza clasei atributul si valoarea gasita
Calculeaza precizia (sau eroarea introdusa) regulei gasita
Alege regula cu cea mai mica eroare (cea mai mare precizie) gasita`
Triceps:
< 17.5 -> Flexion
< 33.5 -> Pronation
< 46.5 -> Supination
>= 46.5 -> Extension
(65/80 instances correct)
10/21/2013
36
Nave Bayesian
Posterior Probability
Likelihood
Prior Probability
Normalization factor
Rec#1:
Triceps=13, Biceps=31
10/21/2013
37
Neural Networks
Output Node(s)
s
i
Input Nodes
Neuron i
Weights
10/21/2013
38
Decision Tree
1.
Triceps
<=37
>37
Triceps
10/21/2013
Biceps
<=14
>14
<=17
>17
Flexion
Pronation
Extension
Supination
39
Entropia
Marime set date
40
K-Nearest Neighbors
KNN este o tehnica prin care datele sunt
clasificate in grupe (clustere) functie bazat
bazat
pe o masura de similaritate.
10/21/2013
41
6. Evaluarea modelului
Validarea modelului utilizand setul de testare
Rezultate validare
10/21/2013
1R
76%
Decision Tree
90%
Nave Bayesian
98%
1-Nearest Neighbors
100%
Neural Networks
100%
42
7. Utilizarea modelului
S-a implementat modelul de tip reea
neuronal intr-un brat robotic.
10/21/2013
43
10/21/2013
44
Palete
plastic
Folie plastic
10/21/2013
45
Folie plastic
Defect datorit
paletelor
defecte
Extrudere
Plastic
Film
Plastic
10/21/2013
46
Monitorizare InIn-Line
Achizitie
date
Port
Window
10/21/2013
47
Monitorizare InIn-Line
Ansamblu Optic
Lumin
Surs lumin
Extrudere si
Interfata
Imagine
Calculator
10/21/2013
48
10/21/2013
49
10/21/2013
50
1. Definirea problemei
Se clasifica imaginile in doua clase corespunzatoare
cazurilor film fara defecte (FD) si film cu defecte (CD).
FD
10/21/2013
CD
51
10/21/2013
52
3. Explorarea datelor
Etapa nu este necesara
10/21/2013
53
zgomotelor
Set
54
5. Construirea modelului
Clasificare:
1R
Decision Tree
3-Nearest Neighbors
Nave Bayesian
10/21/2013
55
6. Evaluarea modelului
Rezultate validare
Set Date
Atrib.
Clase
1R
C4.5
3.N.N
Bayes
Imagini
curate
54
99.9
99.8
99.8
95.8
Imagini
curate +
zgomot
54
98.5
97.8
97.8
93.3
Imagini
curate +
zgomot
54
87
87
84
79
56
7. Utilizarea modelului
10/21/2013
57
10/21/2013
58
10/21/2013
59
Clasificarea galaxiilor
Clasa:
Atribute: Caracteristici imagine,
Etapa de formare
Caracteristici lungime de unda
primita, etc.
10/21/2013
60
Clasificarea galaxiilor
10/21/2013
62
Stocare date
Mining Environment
Resultate
63
10/21/2013
64
Provoc
Provoc
ri i oportunit
oportunitii
Data mining este n topul primelor 10 tehnologii
in perioada cand erau studenti la Stanford in urma cercetarilor acestora in baze de date si data mining
din 1998 )
10/21/2013
65
10/21/2013
66
10/21/2013
67
68
10/21/2013
69
10/21/2013
70
10/21/2013
71
10/21/2013
72
10/21/2013
73