Académique Documents
Professionnel Documents
Culture Documents
17 czerwca 2008
Plan prezentacji
Ekstrakcja informacji (EI) Zarys problemu Istniejce rozwizania i ich ograniczenia Cel i zadania Zakoczenie
17 czerwca 2008
2 / 14
Denicje (1/2)
Ekstrakcja informacji jest to automatyczna identykacja wybranych typw bytw, relacji i zdarze w tekcie [Grishman 2003]. Identykacja instancji bytw jest rozumiana jako identykacja fragmentw tekstu reprezentujcych znane typy bytw.
Np.: osoby (imiona i/lub nazwiska), rmy (nazwy), lokalizacje (nazwy miast, ulic), wyraenia okrelajcze czas, itp.
Identykacja instancji relacji jest rozumiana jako identykacja instancji bytw, powizanych znanym typem relacji, ktrej wystpienie opisane jest w tekcie.
Np.: Zarzd Pol-Mot Warfama SA z siedzib w Krakowie poinformowa o zwoaniu Walnego Zgromadzanie Akcjonariuszy na dzie 20 stycze 2006.
17 czerwca 2008
3 / 14
Denicje (1/2)
Ekstrakcja informacji jest to automatyczna identykacja wybranych typw bytw, relacji i zdarze w tekcie [Grishman 2003]. Identykacja instancji bytw jest rozumiana jako identykacja fragmentw tekstu reprezentujcych znane typy bytw.
Np.: osoby (imiona i/lub nazwiska), rmy (nazwy), lokalizacje (nazwy miast, ulic), wyraenia okrelajcze czas, itp.
Identykacja instancji relacji jest rozumiana jako identykacja instancji bytw, powizanych znanym typem relacji, ktrej wystpienie opisane jest w tekcie.
Np.: Zarzd Pol-Mot Warfama SA z siedzib w Krakowie poinformowa o zwoaniu Walnego Zgromadzanie Akcjonariuszy na dzie 20 stycze 2006.
17 czerwca 2008
3 / 14
Denicje (1/2)
Ekstrakcja informacji jest to automatyczna identykacja wybranych typw bytw, relacji i zdarze w tekcie [Grishman 2003]. Identykacja instancji bytw jest rozumiana jako identykacja fragmentw tekstu reprezentujcych znane typy bytw.
Np.: osoby (imiona i/lub nazwiska), rmy (nazwy), lokalizacje (nazwy miast, ulic), wyraenia okrelajcze czas, itp.
Identykacja instancji relacji jest rozumiana jako identykacja instancji bytw, powizanych znanym typem relacji, ktrej wystpienie opisane jest w tekcie.
Np.: Zarzd Pol-Mot Warfama SA z siedzib w Krakowie poinformowa o zwoaniu Walnego Zgromadzanie Akcjonariuszy na dzie 20 stycze 2006.
17 czerwca 2008
3 / 14
Denicje (2/2)
Identykacja instancji zdarze jest rozumiana jako identykacja instancji bytw, midzy ktrymi zaszy zmiany relacji bdcych instancjami znanych typw relacji (powstanie lub zanik relacji midzy bytami) oraz atrybuty tych zmian opisane w tekcie.
Np.: 10 stycznia 2006 siedziba Pol-Mot Warfama SA zostaa przeniesiona z Krakowa do Warszawy.
10stycznia2006
<FIRMA> <FIRMA>
PolMotWarfamaSA
PolMotWarfamaSA
<LOKALIZACJA>
<LOKALIZACJA>
<LOKALIZACJA>
<LOKALIZACJA>
Krakw
Warszawa
Krakw
Warszawa
17 czerwca 2008
4 / 14
Byty,relacje izdarzenia
Zasobyjzykowe
mgr in. Micha Marciczuk (PWr., IIS) 17 czerwca 2008 5 / 14
Rozwizanieumowy
Zkim:
INGBanklskiS.A.
Kiedy:
21marca2008
Przedmiot:
kredyt2.000.000PLN
17 czerwca 2008
6 / 14
Wynik dopasowania: Zarzd Pol-Mot Warfama SA z siedzib w Krakowie poinformowa o zwoaniu Walnego Zgromadzenia Akcjonariuszy (...).
17 czerwca 2008 7 / 14
Wynik dopasowania: Zarzd Pol-Mot Warfama SA z siedzib w Krakowie poinformowa o zwoaniu Walnego Zgromadzenia Akcjonariuszy (...).
17 czerwca 2008 7 / 14
Wynik dopasowania: Zarzd Pol-Mot Warfama SA z siedzib w Krakowie poinformowa o zwoaniu Walnego Zgromadzenia Akcjonariuszy (...).
17 czerwca 2008 7 / 14
Zarys problemu
Kontekst problemu
Dziedzina spek giedowych: emitenci papierw wartociowych zobowizani s do publikowania informacji o 24 rodzajach zdarze [Dz.U.05.209.1744], ponad 400 spek na giedzie, ok. 2000 raportw publikowanych miesicznie w postaci elektronicznej (ok. 65 dziennie), moliwo wykorzystania informacji z raportw giedowych do ledzenia istotnych zdarze na giedzie, a take do prowadzenia analiz nansowych spek giedowych system bdzie rozwijamy w ramach grantu realizowanego w instytucie IIS. W jaki sposb pozyska du liczb wzorcw na potrzeby ekstrakcji informacji z danej dziedziny?
mgr in. Micha Marciczuk (PWr., IIS) 17 czerwca 2008 8 / 14
Istniejce prace
dla j. polskiego
od 2003 w IPI PAN (Kup 2004, Piskorski 2004, Marciniak, Mykowiecka), rcznie tworzone gramatyki,
dla j. angielskiego
od ok. 20 lat m.in. E. Rilo (1993-2007), Sudo, Yakushiji, rczne i automatyczne metody tworzenia wzorcw, problem prostszy ni dla j. polskiego, poniewa:
istnieje skuteczna powierzchniowa analiza skadniowa i rozpoznawanie bytw nazwanych, jzyk pozycyjny.
pomimo wielu prac nad ekstrakcj informacji dla wielu dziedzin i zada, nowe dziedziny nadal wymagaj duych nakadw pracy.
mgr in. Micha Marciczuk (PWr., IIS) 17 czerwca 2008 9 / 14
wzorce pozycyjne stosowane dla j. angielskiego s niewystarczajce ze wzgldu na dowolny szyk zdania w j.polskim Sd rozwiza spk. Spk rozwiza sd. rczne tworzenie wzorcw jest czasochonne oraz wymaga zarwno wiedzy dziedzinowej jak i lingwistycznej.
mgr in. Micha Marciczuk (PWr., IIS) 17 czerwca 2008 10 / 14
Cel i zadania
Cel
Opracowanie metody uczenia nadzorowanego do pozyskiwania wzorcw na potrzeby ekstrakcji informacji o zdarzeniach z tekstw dziedzinowych.
System Ekstrakcji Informacji
Zbirdanych uczcych
17 czerwca 2008
11 / 14
Cel i zadania
Ocena metody
Kolekcja dokumentw
raporty z dziedziny giedowej, raporty s dostpne publiczne w formie elektronicznej, wymagany jest zbir dokumentw rcznie oznakowanych,
cz zbioru do automatycznego pozyskania wzorcw, pozostaa cz do oceny wzorcw,
Sposb oceny
miary jakoci
precyzja stosunek poprawnie wydobytych informacji do wszystkich wydobytych informacji, kompletno stosunek poprawnie wydobytych informacji do wszystkich interesujcych informacji w tekcie,
skuteczno rozpoznawania bytw, relacji i zdarze. celem bdzie osignicie skutecznoci nie gorszej ni zgodno niezalenych anotatorw w rcznej ekstrakcji informacji.
mgr in. Micha Marciczuk (PWr., IIS) 17 czerwca 2008 12 / 14
Cel i zadania
Zadania
1 2 3
Przygotowanie zbioru danych dla dziedziny giedowej. Stworzenie ontologii dla dziedziny giedowej. Sformuowanie zadania ekstrakcji informacji z raportw giedowych. Rczne oznakowanie zbioru danych testowych przez niezalenych anotatorw w celu ustalenia poziomu zgodnoci oznacze przez ludzi. Opracowanie metody uczenia nadzorowanego do pozyskiwania wzorcw ekstrakcji informacji. Testowanie i ocena metody ekstrakcji informacji dla dziedziny giedowej. Ocena moliwoci ekstrakcji informacji dla innych dziedzin.
17 czerwca 2008 13 / 14
Zakoczenie
Podsumowanie
1
Problem ekstrakcji informacji z tekstu nie jest zadaniem nowym, pomimo to jest jeszcze duo do zrobienia w tej dziedzinie. Narzdzia pomocnicze dla j. polskiego s na wczesnym etapie rozwoju
analiza skadniowa tekstu, rozpoznawanie bytw nazwanych.
3 4
Rczna konstrukcja jest kosztowna i czasochonne. Metody automatycznego pozyskiwania wzorcw stworzone dla j. angielskiego nie s zadowalajce dla j. polskiego. Propozycja opracowania metody uczenia nadzorowanego do pozyskiwania wzorcw na potrzeby ekstrakcji informacji dla j. polskiego.
17 czerwca 2008 14 / 14
Zakoczenie
Bibliograa
R. Grishman The Oxford Handbook of Computational Linguistic. Oxford University Press, 2003. The Message Understanding Conference (MUC)web page http://www-nlpir.nist.gov/related projects/muc. A. Kup, A. Marciniak, A. Mykowiecka, J. Piskorski, and T. Podsiady-Marczykowski. Information extraction from mammographic reports. In KONVENS 2004, Osterischeen Gesellschaft fur Articial Intelligence, pages 113-116, 2004. Rozporzdzenie ministra nansw z dnia 19 padziernika 2005r. w sprawie informacji biecych i okresowych przekazywanych przez emitentw papierw wartociowych, Dziennik Ustaw z 2005 r. Nr 209 poz. 1744, http://www.abc.com.pl/serwis/du/2005/1744.htm. Marciczuk Micha, Piasecki Maciej. Pattern Extraction for Event Recognition in the Reports of Polish Stockholders. Proceedings of the International Multiconference on Computer Science and Information Technology - 2nd International Symposium Advances in Articial Intelligence and Applications (AAIA07), 2007, 275-284 A. Buczyski and A. Przepirkowski. Demo: An Open Source Tool for Partial Parsing and Morphosyntactic Disambiguation. In Proceedings of LREC 2008. M. Piasecki, G. Godlewski Reductionistic, Tree and Rule Based Tagger for Polish. Intelligent Information Processing and Web Mining. Mieczysaw A. Kopotek, Sawomir Wierzcho, Krzysztof Trojanowski (eds). Berlin: Springer, cop. 2005 (Advances in Soft Computing, ISSN 1615-3871) s. 531-540 Proceedings of International IIS: IIPWM 06 Conference. Ustro, June 19-22, 2006.
Dodatki
Teza
Dysoponujc wiedz ogln w postaci Sowosieci, wiedz dziedzinow w postaci ontologii oraz zbiorem przykadowych, rcznie oznakowanych dokumentw dla danego zadania ekstrakcji informacji moliwe jest wygenerowanie uoglnionych wzorcw na potrzeby tego zadania ekstrakcji informacji.
Dodatki