Académique Documents
Professionnel Documents
Culture Documents
Politechnika Warszawska
Wydzia Elektroniki i Technik Informacyjnych
Instytut Informatyki
Opiekun pracy
dr in. Piotr Andruszkiewicz
Ocena: .....................................................
................................................................
Podpis Przewodniczcego
Komisji Egzaminu Dyplomowego
Kierunek:
Informatyka
Specjalno:
Data urodzenia:
1990.12.14
2009.10.01
yciorys
........................................................
Podpis studenta
EGZAMIN DYPLOMOWY
Zoy egzamin dyplomowy w dniu ................................................................................. 2013 r
z wynikiem ...................................................................................................................................
Oglny wynik studiw: ................................................................................................................
Dodatkowe wnioski i uwagi Komisji: .........................................................................................
......................................................................................................................................................
......................................................................................................................................................
2
STRESZCZENIE
Niniejsza praca powicona jest tematyce eksploracji danych tekstowych w
rodowisku sieci web, a w szczeglnoci takim metodom jak uoglnione wzorce
sekwencji oraz klasyfikacja. Podstawowym celem tej pracy byo zbadanie efektywnoci
klasyfikacji stron domowych naukowcw i uniwersytetw na podstawie wystpowania
w ich treci czstych sekwencji tekstowych.
W pracy dokadnie zosta opisany algorytm GSP wykorzystywany do
odkrywania wzorcw sekwencji w tekcie. Przedstawione zostay rwnie typowe
reprezentacje tekstu w algorytmach eksploracji danych tekstowych oraz sposb
przeksztacania dokumentu do reprezentacji odpowiedniej dla zada wykrywania
sekwencji oraz klasyfikacji.
Do przeprowadzenia klasyfikacji uyto nastpujcych klasyfikatorw: DeEPs,
Naive Bayes oraz KStar, ktrych dziaanie zostao opisane. W szczeglnoci skupiono
uwag na leniwym klasyfikatorze DeEPs.
Sowa kluczowe: Eksploracja danych w tekcie, GSP, Sekwencje, Klasyfikacja, DeEPs
ABSTRACT
Title: Classification of Text Documents based on Generalized Sequence Patterns.
This bachelor thesis concerns the subject of text data mining in web
environment, especially such techniques as discovering generalized sequence patterns
and classification. The main purpose of the work was to investigate the effectiveness of
the classification of home pages of researchers and universities based on the
occurrences of frequent text sequences in their content.
This work thoroughly describes GSP algorithm, which is used to discover text
sequence patterns. It also presents typical representations of text in text data mining
algorithms and explains how a document is converted to a representation suitable for the
tasks like sequence discovery and classification.
The following classifiers were used to perform classification: DeEPs, Naive
Bayes and KStar. In particular it focuses on a lazy method of classification called
DeEPs.
Key words: Text Data Mining, GSP, Sequence, Pattern, Classification, DeEPs
3
Spis treci
1.
2.
Wstp .................................................................................................................................... 6
1.1.
1.2.
1.3.
HTML .......................................................................................................................... 9
2.2.
2.2.1.
2.2.2.
2.2.3.
Reprezentacja n-gramowa................................................................................ 10
2.2.4.
2.2.5.
TF IDF ............................................................................................................. 11
2.2.6.
2.2.7.
2.2.8.
2.3.
3.
2.3.1.
2.3.2.
Tokenizacja ........................................................................................................ 15
2.3.3.
2.3.3.1.
Stemming ................................................................................................... 16
2.3.3.2.
Filtracja sw ............................................................................................. 17
2.3.3.3.
3.2.
3.3.
Taksonomie elementw............................................................................................. 23
3.4.
4.
Klasyfikacja ....................................................................................................................... 26
4.1.
4.2.
4.2.1.
4.2.2.
4.2.3.
4.2.3.1.
5.
6.
7.
5.2.
5.3.
Modu klasyfikacji..................................................................................................... 36
Testowanie ......................................................................................................................... 38
6.1.
6.2.
6.3.
6.4.
6.5.
6.6.
6.6.1.
6.6.2.
6.6.3.
Podsumowanie ................................................................................................................... 52
Bibliografia 54
1. Wstp
Eksploracja danych jest popularn i wan dziedzin informatyki majc bardzo due
znaczenie praktyczne. Jej istota polega na wykorzystaniu szybkoci komputerw,
specjalnych algorytmw i technik do odkrywania ukrytych dla czowieka zalenoci i
prawidowoci w ogromnych zbiorach danych, ktrych czowiek nie byby wstanie
opanowa konwencjonalnymi metodami jak typowe zapytania do bazy danych. Jest to
take geneza powstania tej dziedziny: w wielu branach jest potrzeba gromadzenia
danych, ktre bardzo czsto nieprawdopodobnie rozrastaj si do wielkich rozmiarw.
Bez odpowiedniej analizy tych danych staway si bezuyteczne, wic potrzebny by
mechanizm wydobywania wiedzy zawartej w surowych danych.
Naley rwnie rozrni eksploracj danych od zwykych zapyta operacyjnych na
bazie danych, ktrych przykadem moe by zapytanie o liczb okrelonych produktw
sprzedanych w sklepie w konkretnym miesicu lub nawet bardziej zoonych z
podziaem na kategorie, miesice czy jeszcze inne parametry czy ograniczenia.
Eksploracja pozwala na znalezienie odpowiedzi na pytania bardziej oglne, wyszej
abstrakcji, do ktrych nie sposb uoy zapytania SQL1. Przykadem moe by np.
klasyfikacja klienta na podstawie jego aktywnoci lub zakupw.
W kontekcie baz danych eksploracja danych jest jednym z etapw bardziej oglnego
procesu odkrywania wiedzy. W procesie tym najpierw naley odpowiednio
przygotowa dane do uycia konkretnej metody. Wie si to z takimi czynnociami jak
selekcja odpowiednich danych, usunicie danych nierelewantnych z punktu widzenia
problemu czy nawet przeksztacenie ich do odpowiedniej reprezentacji, na ktrej bdzie
operowa algorytm. Po caym procesie naley odpowiednio zinterpretowa same wyniki
eksploracji, aby ostatecznie odkry wiedz zawart w danych.
Eksploracja danych jest silnie powizana z takimi dziedzinami nauki jak statystyka czy
sztuczna inteligencja, gwnie uczenie maszyn, z ktrej wywodz si techniki
eksploracji danych.
10
11
12
Przykad
Zamy, e spod pewnego adresu URL pobrano rdo strony, ktre po sparsowaniu i
wydobyciu tekstu dao nastpujc tre:
Welcome to my home page. Like other home pages it contains information about my
work.
Po przejciu wszystkich etapw transformacji, dokument bdzie w programie widziany
jako zbir mapowa: rdze sowa pozycje wystpienia sowa:
welcom
home
page
like
contain
Inform
Sowo
Pozycje
1
4,8
5,9
6
11
12
wystpie
Tabela 2.2. Reprezentacja przykadowego dokumentu w programie.
work
15
Odfiltrowane zostay wszystkie sowa znajdujce si na stopwords: to, my, it, about.
Dziki procesowi stemmingu sowa przedstawiane s w formie rdzenia, dziki temu np.
sowo w liczbie pojedynczej page oraz w liczbie mnogiej pages zostay
potraktowane jako ten sam element.
2.2.8. Strona www jako obiekt do klasyfikacji
W pracy tej klasyfikacja strony www odbywaa si na podstawie obecnoci w niej
czstych sekwencji wyszukanych w zbiorze trenujcym. Strona www reprezentowana
bya przez czste sekwencje sw, ktre zawieraa. Obecno kolejnych sekwencji bya
odznaczana za pomoc elementw binarnego wektora. Wspominane czste sekwencje
mog by rnej dugoci. Std model ten mona porwna z binarn reprezentacj gramow, przy czym w czystej reprezentacji gramowej sowa sekwencji musz
rzeczywicie by ssiednimi sowami w tekcie. W reprezentacji wykorzystywanej w tej
pracy nie ma takiego ograniczenia, poniewa przyjto, e maksymalny odstp midzy
kolejnymi sowami sekwencji tekstowej wynosi 3. Ponadto liczba sekwencji brana pod
uwag przy klasyfikacji jest niewielka i uwzgldnia jedynie najczstsze i najbardziej
istotne sekwencje wybrane spord wszystkich znalezionych. Waha si ona midzy 2 a
30 sekwencjami.
13
Przykad
Zamy,
procesie
sekwencjonowania
zostay
wykryte,
nastpnie
14
2.3.2. Tokenizacja
Tokenizacja (inaczej atomizacja) jest pierwszym krokiem analizy dokumentw
tekstowych. Jest to podzia danych na pojedyncze obiekty zwane etonami (ang.
Token). W przypadku tekstu s to po prostu pojedyncze sowa. Tokeny mog si
powtarza, zatem istotna jest rwnie jego pozycja w dokumencie. Tokenizacj zajmuje
si analizator leksykalny inaczej zwany skanerem lub lekserem. Przeglda on kolejne
znaki tekstu i grupuje je w tokeny wedug okrelonej reguy lub zbioru regu. Tokeny
rozpoznawane przez lekser, lub elementy rozdzielajce tokeny, mog by opisane w
programie wyraeniami regularnymi. W pracy korzystam z analizatora leksykalnego
dostpnego w jednej z gwnych bibliotek jzyka Java. Zakada on, e tokeny
rozdzielone s cigami znakw opisanymi wyraeniem regularnym:
[^\\p{L}]+ liczby nie s tokenami
"[\\W]+" uznajcy liczby jako tokeny
Oznacza to, e tokeny (sowa) rozdzielone s cigami znakw, wrd ktrych nie ma
liter (lub nie ma liter ani liczb w drugim przypadku). Dziki temu ju na tym etapie
odfiltrowane s wszelkie znaki nie zoone z liter (np. znaki interpunkcyjne), a do
dalszej analizy przychodz tylko waciwe sowa.
Naley rwnie wspomnie, e po rozpoznaniu tokena nastpuje zamiana wszystkich
jego wielkich liter na mae. Ma to zapobiec rozpatrywaniu przez program tego samego
sowa pisanego rnymi wielkociami liter jako rne elementy.
15
2.3.3.1.
wietnym
Stemming
sposobem
na
ograniczenie
objtoci
reprezentacji
dokumentw
http://snowball.tartarus.org/index.php
16
2.3.3.2.
Filtracja sw
Of
And
Research The In
A
Public Univers For
722
702
676
643 628
609
607
603
589
Tabela 2.3. Najczstsze sowa w grupie stron domowych naukowcw.
Of
Student To
The
And
A
Academ
769
769
768
764
749
742
732
Tabela 2.4. Najczstsze sowa w grupie stron domowych uniwersytetw.
Comput
589
Campus
716
Jak wida, wrd najczstszych wyrazw przewaaj sowa z listy stopwords nadajce
si do usunicia.
Oprcz sw z listy stopwords, ignorowane s rwnie sowa o dugoci jednego znaku.
2.3.3.3.
Waga TF IDF
Decyzja o tym, czy dany atrybut powinien zosta zachowany czy te pominity jest
podejmowana moe by rwnie podejmowana na podstawie tzw. funkcji istotnoci.
Najprostsz tak funkcj jest TFIDF1. Sposb jej obliczania zosta podany podczas
opisu reprezentacji opartej na niej (2.2.5). Atrybuty, ktrych waga nie przekraczaaby
pewnej wartoci progowej nie byyby wczane do reprezentacji [13].
17
3. Wzorce sekwencji
Problem wykrywania sekwencji polega na analizie danych zawierajcych informacje o
zdarzeniach, ktre wystpiy w okrelonych przedziaach czasu lub w okrelonej
kolejnoci w celu znalezienia zalenoci pomidzy wystpowaniem tych zdarze w
czasie. Kiedy wartoci owych zdarze maj charakter numeryczny mamy do czynienia z
analiz trendw lub przebiegw czasowych, co jest podobn jednak inn dyscyplin. W
przypadku, gdy zdarzenia przyjmuj wartoci kategoryczne, jest to problem wzorcw
symbolicznych. Z takim wanie mamy do czynienia w tej pracy, gdzie wartociami s
kolejne sowa treci dokumentu.
Przykadow sekwencj czst moe by nastpujca zaleno:
Klient, ktry kupi ostatni cz sagi Gwiezdnych Wojen w przecigu nastpnego
miesica zakupi Star Treka.
Wzorce sekwencji mog stanowi rdo bardzo uytecznej wiedzy. Za pomoc
wzorcw sekwencji mona bada naturalne wzorce zachowa klientw w sklepach,
sposb
nawigacji
uytkownikw
witryn,
zalenoci
midzy
zdarzeniami
18
Zbir literaw
mog si powtarza.
, gdzie Ti
jest wyrazem sekwencji. Wyraz sekwencji nie moe by zbiorem pustym oraz
elementy wyrazu sekwencji nie mog si powtarza.
Przykadowo sekwencja
nie zawiera sekwencji
zawiera si w
wspiera sekwencj
Podstawowymi
parametrami,
wpywajcymi
na
restrykcyjno
algorytmu,
Wyrazem sekwencji jest jedno sowo dokumentu lub sowo oraz nazwy grupy, do
ktrych naley dane sowo w przypadku, gdy obecne s taksonomie sw.
20
21
przeksztaconym
uprzednio
do
odpowiedniej
reprezentacji
wykorzystywanej w programie.
Sprawdzanie zawierania sekwencji z uwzgldnieniem ogranicze w
dokumencie
Obiekt reprezentujcy stron www, jest postaci opisanej w 2.2.7. Zamy, e
sprawdzamy
obecno
sekwencji
dokumencie.
22
zwierz
ssak
pies
kot
gad
paz
aba
23
prostszy
do
zaimplementowania
od
innych
algorytmw
niektrych sytuacjach. Jego gwn wad jest saba skalowalno. Opis moliwoci
algorytmu GSP oraz jego dokadniejsze porwnanie z innymi mona znale w [12].
W przypadku analizy bardzo duego zbioru danych wartym zastanowienia jest
skorzystanie z innych algorytmw wyszukiwania sekwencji. Pattern-Growth [18] jest
grup algorytmw prezentujcych inne podejcie do problemu odkrywania wzorcw.
Algorytmy te mog dziaa szybciej przy ustawieniu niskiego wsparcia. Popularnym
przedstawicielem algorytmw z tej grupy jest PrefixSpan [20] lub SPADE [19].
25
4. Klasyfikacja
Klasyfikacja (ang. classification) to jedna z najstarszych jak rwnie najwaniejszych
metod eksploracji danych, ktra ma bardzo istotne znaczenie praktyczne. Polega ona na
znajdowaniu odwzorowania danych w zbir predefiniowanych klas. Na podstawie
zawartoci bazy danych budowany jest model (np. drzewo decyzyjne, reguy logiczne,
tablica prawdopodobiestw), ktry suy do klasyfikowania nowych obiektw w bazie
danych lub gbszego zrozumienia istniejcego podziau obiektw na klasy.
Gwnym
celem klasyfikacji
jest
zwanego
klasyfikatorem.
Proces klasyfikacji skada si zazwyczaj z trzech etapw:
1. Budowanie modelu.
Pierwszym krokiem jest zbudowanie modelu (waciwy klasyfikator), ktry
konstruowany jest na podstawie danych treningowych. Jest to zbir obiektw
skadajcych si z atrybutw i ich wartoci oraz jednego atrybutu decyzyjnego (ang.
Class label attribute), do ktrego przypisywana jest etykieta klasy obiektu.
2. Ewaluacja modelu.
Krok ten ma na celu przetestowanie jakoci zbudowanego klasyfikatora,
przetestowaniu dokadnoci klasyfikacji na podstawie danych testowych.
Wane jest, aby do tego zadania wykorzysta specjalnie wydzielone dane testowe.
Nie jest wskazane uywanie do tego celu danych, biorcych udzia w budowaniu
modelu, poniewa moe prowadzi to do zafaszowanego, zbyt optymistycznego
wyniku. Dokadniejszy opis rodzajw ewaluacji modelu przedstawiony zosta w
sekcji dotyczcej testowania (6.5).
Istnieje wiele wspczynnikw opisujcych jako klasyfikatora. Najprostszym,
czsto wystarczajcym jest oglna dokadno klasyfikacji. Jest to stosunek
obiektw poprawnie zaklasyfikowanych do wszystkich obiektw poddanych
klasyfikacji. Wicej o miarach jakoci w sekcji 6.2.
3. Klasyfikacja nowych obiektw.
Ostatnim etapem jest klasyfikacja przy pomocy zbudowanego modelu nowych
obiektw na podstawie wartoci ich atrybutw.
Powstao dotychczas bardzo wiele metod klasyfikacji. Jednym z najpopularniejszych
jak i najprostszych klasyfikatorw jest Naiwny Klasyfikator Bayesa.
26
) ( )
( )
) ( )
( )
) ( )
( )
) (
) ( )
( )
27
F1
F2
Val1
0.08
0.12
Val2
0.09
0.01
28
obiektu.
Im
transformacja
jest
bardziej
zoona
tym
mniejsze
transformacji
tego
obiektu
do
kadego
obiektu
danych
a obiekt testowy
b obiekt ze zbioru treningowego nalecy do klasy C
Szczegowy opis klasyfikacji metod K* mona znale w [11]
4.2.3. Decisions through Emerging Patterns (DeEPs)
Jest to kolejna metoda leniwej klasyfikacji obiektw jednak koncepcyjnie rnica si
od tych opisanych wczeniej (kNN, K*). W poprzednich przypadkach przeprowadzana
bya analiza bazujca gwnie na odlegoci midzy obiektem, a krotkami
treningowymi, obliczana pewn charakterystyczn dla algorytmu funkcj podobiestwa
midzy obiektami. Rozpatrywano surowe dane treningowe, bez wspomagania si
wydobywaniem wyszego poziomu wzorcw czy regu.
29
F2
F3
Klasa
klasie. Inaczej mwic jest to zbir takich konfiguracji wartoci atrybutw, ktra
wystpuje wrd obiektw treningowych tylko jednej klasy.
Ju przy kilku atrybutach obiektw, liczba moliwych kombinacji ich wartoci jest
bardzo dua. Standardowe przechowywanie tylu zbiorw mogoby bardzo niekorzystnie
wpyn na algorytm, a nawet uniemoliwi jego prac w niektrych przypadkach. Aby
rozwiza ten problem wprowadzono nietypowy sposb reprezentacji zbiorw przy
pomocy granic:
Granica (ang. Border) - uporzdkowana para
+*
++
Reprezentuje wszystkie podzbiory zbioru {1, 2} lub {1, 3, 5}. Nie ma w tym przypadku
drugiego ograniczenia, poniewa kady zbir jest nadzbiorem zbioru pustego.
4.2.3.1.
31
F1
F2
F3
Klasa
1
N
4
Tabela 4.3. Zbir danych treningowych po przeciciu z przykadem testowym T.
2. Wyznaczenie przestrzeni horyzontalnej kadej klasy.
Przestrze horyzontalna budowana jest osobno dla kadej klasy obiektw. Powstaje
przez pozostawienie maksymalnych zbiorw powstaych po operacji przecicia
obiektu testowego z kadym obiektem treningowym z tej klasy z osobna. Zbir jest
maksymalny, jeli nie zawiera si w adnym innym zbiorze.
3. Odkrycie wzorcw wyskakujcych (JEPs) oraz wyaniajcych (EPs)
W wyniku odpowiednich operacji na przestrzeniach horyzontalnych klas, mona
wyznaczy wzorce JEP oraz EP.
Zbiory JEP klasy P powstaj przez wykonanie operacji rnicy przestrzeni
maksymalnej tej klasy z przestrzeni klasy przeciwnej N:
JEPs = < { * +, RP > < { * +, RN >
Wynikiem s wzorce, ktre wystpuj w klasie P, ale nie w klasie N.
EP jest wynikiem operacji koniunkcji przestrzeni horyzontalnych rnych klas
obiektw, w celu znalezienia ich czci wsplnej czyli wzorcw, ktre wystpuj w
wrd obiektw obydwu klasy.
32
zbioru SEP
Wynik ukazuje, jaka cz obiektw danej klasy pasuje do obiektu poddawanego
klasyfikacji.
Ostatecznie wybierana jest klasa, ktra uzyskaa najlepszy wynik.
Oprcz samych korzyci pyncych z klasyfikacji metod DeEPs, ktra jest w wielu
przypadkach bardzo skuteczna, co potwierdzaj testy przeprowadzone w [8], pozwala
ona na odkrycie interesujcych informacji o przebiegu klasyfikacji. Wzorce
wyskakujce (JEPs) oraz wyaniajce (EPs) mog ukaza informacj o tym, jakie
atrybuty, bd konfiguracje atrybutw przewayy o decyzji klasyfikatora.
Wad tej metody klasyfikacji okazaa si wyjtkowa wraliwo klasyfikatora na
zaszumienie danych treningowych.
33
5. Architektura rozwizania
Czci praktyczn mojej pracy byo stworzenie systemu realizujcego nastpujce
zadania:
rda
dokumentu
HTML
celu
uzyskania
struktury,
wystpujcych
jakiej
grupie
dokumentw.
Sekwencje
te
35
WEKA: http://www.cs.waikato.ac.nz/ml/weka/
36
6. Testowanie
W celu dokadnego przetestowania dokadnoci klasyfikacji stron domowych na
podstawie wystpowania w nich czstych sekwencji tekstowych, przeprowadzono
wielokrotne testy.
6.1. Dane treningowe
Do dyspozycji podczas testw miaem kilkaset przykadw pozytywnych i
negatywnych stron domowych naukowcw oraz podobn liczb przykadw stron
domowych uniwersytetw.
Prawdziwe strony domowe uniwersytetw zostay zaczerpnite z indeksu stron
uniwersytetw na terenie USA znajdujcego si na stronie: http://www.clas.ufl.edu/au/.
Przykady negatywne stron domowych uniwersytetw byy uzyskane z wynikw
zapyta wyszukiwarki internetowej Google. Przykadowa posta takiego zapytania
wygldaa w ten sposb: "University of Dallas" -site:udallas.edu.
Jednak wybierane byy te strony wynikowe, ktre nie byy stron domow tego ani
adnego innego uniwersytetu. Dziki temu przykady negatywne nie byy zupenie
losowe, ale byy to strony, ktre faktycznie mogy by przyjte za prawdziwe strony
domowe uniwersytetw. W ten sposb uzyskano dane, ktre w bardziej obiektywny,
surowy sposb pozwol przetestowa jako klasyfikatorw, poniewa dobrze
imitoway prawdziwe warunki klasyfikacji, gdzie klasyfikator po dokonaniu pewnego
zapytania w wyszukiwarce, majc zbir podobnych stron wynikowych bdzie musia
wybra t waciw.
Zbir pozytywnych przykadw stron domowych naukowcw zosta utworzony na
podstawie bazy ludzi strony DBLP1. Jest to strona zawierajc baz ludzi nauki oraz ich
publikacji zwizanych z dziedzin nauk informatycznych.
Przykady negatywne zostay pozyskane w podobny sposb jak w przypadku
uniwersytetw.
Do analizy uywane byy tylko strony angielskojzyczne.
38
Zaklasyfikowany jako
negatywny
Naley do klasy
Tp (True positive)
Fn (False negative)
pozytywnej
Naley do klasy
Fp (False positive)
Tn (True negative)
negatywnej
Tabela 6.1. Podzia obiektw testowych w klasyfikacji binarnej.
Dokadno (ang. Accuracy) Jedna z najwaniejszych miar uywana do oceny jakoci
klasyfikacji. Okrela prawdopodobiestwo poprawnego zaklasyfikowania dowolnego
przykadu testowego. Jest ilorazem obiektw waciwie zaklasyfikowanych oraz
wszystkich obiektw poddawanych klasyfikacji:
Accuracy =
39
40
Pozytywne:
1. computerscienceuniversity
2. departmentcomputerscience
3. researchinterests
4. internationalconference
5. homepage
6. researchpublications
Negatywne:
1. contactus
2. privacypolicy
3. computerscience
4. rightsreserved
5. internationalconference
Jak wida w przykadach pozytywnych zostay odnalezione sekwencje, ktre faktycznie
s charakterystyczne dla stron domowych naukowcw w szczeglnoci zwizanych z
naukami Technologii Informacyjnych.
Natomiast czste wzorce sekwencyjne odnalezione w grupie negatywnych przekadw
stron domowych, czyli stron o rozmaitej tematyce, ale nie bdce stronami domowymi
naukowcw, s krtsze i mniej charakterystyczne dla konkretnego tematu. S to typowe
zwroty pojawiajce si na bardzo wielu stronach internetowych niezalenie od ich
tematyki.
Na tej podstawie mona byo przypuszcza, e sprawdzanie obecnoci typowych dla
konkretnej tematyki wzorcw czstych na stronie poddawanej klasyfikacji moe
przynie dobre rezultaty.
6.4. Wybr sekwencji do klasyfikacji
Do dalszej analizy zostaa wybierana pewna liczba N sekwencji. Poowa tej liczby
pochodzia ze zbioru sekwencji odkrytych w grupie dokumentw pozytywnych, a
poowa ze zbioru dokumentw negatywnych. Sekwencje najpierw byy sortowane
41
42
43
44
46
47
to
rwnie
nastpujcy
wykres
ukazujcy
porwnanie
liczby
49
10
14
18
22
26
30
0,795
0,781
0,761
0,777
0,779
0,757
0,767
0,762
0,241
0,512
0,607
0,687
0,736
0,726
0,742
0,741
0,784
0,203
0,322
0,167
0,697
0,748
0,633
0,686
0,359
0,345
0,738
0,699
0,718
0,333
0,203
0,76
0,759
0,759
0,289
0,116
0,779
0,763
0,770
0,242
0,055
0,781
0,718
0,747
0,223
0,041
0,784
0,751
0,765
0,229
0,033
0,764
0,784
0,774
0,27
0,027
50
2
0,679
0,679
0,625
0,982
0,764
0,659
6
0,686
0,686
0,632
0,975
0,766
0,638
10
0,707
0,707
0,672
0,929
0,772
0,541
14
0,745
0,745
0,695
0,953
0,8
0,488
18
0,777
0,777
0,728
0,95
0,822
0,416
22
0,791
0,791
0,74
0,961
0,833
0,4
26
0,812
0,812
0,768
0,957
0,848
0,349
30
0,808
0,808
0,759
0,961
0,845
0,364
51
7. Podsumowanie
Celem pracy byo stworzenie systemu umoliwiajcego wydobycie z pewnej grupy
stron internetowych (w tym przypadku byy to strony domowe naukowcw i
uniwersytetw) czstych sekwencji tekstowych oraz wykorzystanie tych sekwencji do
budowy modeli klasyfikatorw. Nastpnie zbudowane modele klasyfikatorw miay
posuy do zbadania jakoci klasyfikacji stron domowych na podstawie obecnoci
sekwencji w tych stronach oraz porwnanie wynikw z klasycznym podejciem do
klasyfikacji opierajcej si na wystpowaniu czstych sw.
Praca ta omawia kolejne czynnoci prowadzce do realizacji okrelonych celw.
Poczwszy od sposobu pobierania treci stron www na podstawie adresw URL.
Opisuje rne reprezentacje tekstu w algorytmach eksploracji danych tekstowych i
sposoby przeksztacania strony do okrelonej postaci. Szczegowo opisano sposb
odkrywania sekwencji tekstowych z grupy dokumentw tekstowych za pomoc
zaimplementowanego w pracy algorytmu GSP. Przedstawiono rwnie dziaanie
uytych w pracy klasyfikatorw: Naive Bayes, KStar oraz DeEPs. Wyjtkow uwag
powicono klasyfikatorowi DeEPs, ktry zosta zaimplementowany w systemie.
Za pomoc algorytmu GSP udao si wydoby czste sekwencje, ktre faktycznie
sprawiay wraenie charakterystycznych dla grupy dokumentw o danej tematyce np. <
research, interests>. Sekwencje wykryte wrd przykadw negatywnych byy
zwrotami wystpujcymi w wikszoci stron internetowych bez wzgldu na tematyk
(<Contact, us>, <Privacy policy> itp.). Wybrane najlepsze sekwencje wyszukane w
dokumentach pozytywnych oraz negatywnych stanowiy atrybuty obiektu klasyfikacji.
Wszystkie testy wykonane za pomoc trzech wspomnianych wyej klasyfikatorw
wykazay, e skuteczno klasyfikacji stron domowych przy pomocy czstych
sekwencji tekstowych jako atrybuty, nie jest zadowalajca. Okazao si, e jedynie w
nielicznych przypadkach takie podejcie przewysza klasyfikacj w oparciu o czste
sowa. Mogo to by zwizane z rzadkoci wystpowania sekwencji w treci stron
www, w porwnaniu do pojedynczych sw. Wektory reprezentujce wystpowanie
sekwencji w dokumentach miay przewaajc liczb zer, co utrudniao klasyfikacj.
W jednym z przypadkw udao si wykry sekwencje, ktre wietnie charakteryzuj
pewn grup dokumentw i tylko na ich podstawie bardzo dokadnie mona byo
52
do
zbioru
atrybutw
przy budowie
klasyfikatora.
Kolejnym
wartym
pozytywnych,
rwnie
dokumentach
klasy
przeciwnej.
i sw do
53
Bibliografia
[1] R. Srikant, R. Agrawal. Mining Sequential Patterns: Generalizations and
Performance Improvements.San Jose, 1996.
[2] Helena Ahonen-Myka. Discovery of Frequent Word Sequences in Text. Helisinki.
[3] Piotr Gawrysiak. Automatyczna kategoryzacja dokumentw. Ph.D., Warsaw
University of Technology, 2001.
[4] Yu Hirate, H. Yamana, Generalized Sequential Pattern Mining with Item Intervals,
Journal Of Computers, Vol. 1, No. 3, June 2006
[5] Celine Fiot, Extended Time Constraints for Generalized Sequential Pattern Mining
[6] J. Han H. Cheng, D. Xin, X. Yan, Frequent pattern mining: current status and
future directions, 2007
[7] J. Li, K. Ramamohanarao, G. Dong, The Space of Jumping Emerging Patterns and
Its Incremental Maintenance Algorithms.
[8] J. Li, K. Ramamohanarao, G. Dong, L. Wong, DeEPs: a New Instance Based Lazy
Discovery and Classification System, 2004.
[9] J. Li, K. Ramamohanarao, G. Dong, Instance Based Classification by Emerging
Patterns.
[10]
Differences.
[11]
[12]
[13]
[14]
[15]
[16]
[17]
54
[18]
Jian Pei, Pattern Growth Methods for Frequent Pattern Mining, Simon
Fraser University, 2002.
[19]
[20]
[21]
55