Académique Documents
Professionnel Documents
Culture Documents
FACULDADE DE TECNOLOGIA
DEPARTAMENTO DE ENGENHARIA ELÉTRICA
PUBLICAÇÃO: PPGENE.DM – XX A / XX
BRASÍLIA/DF: DEZEMBRO – 2011
ii
UNIVERSIDADE DE BRASÍLIA
FACULDADE DE TECNOLOGIA
DEPARTAMENTO DE ENGENHARIA ELÉTRICA
APROVADA POR:
_________________________________________________
Daniela Barreiro Claro, PhD (DCC-UFBA)
(Orientadora)
_________________________________________________
Rafael Timóteo de Sousa Júnior, PhD (ENE-FT-UnB)
(Examinador Interno)
_________________________________________________
Hélvio Pereira Peixoto, PhD (DITEC-DPF)
(Examinador Externo)
_________________________________________________
Flávio Elias de Deus, PhD (ENE-FT-UnB)
(Suplente)
iii
iv
FICHA CATALOGRÁFICA
DALBEN JR., OSVALDO
Reconhecimento de Nomes de Pessoas e Organizações em Textos Forenses Usando Uma
Variação do Modelo Oculto de Markov [Distrito Federal] 2011.
(xxi), (104)p., 297 mm (ENE/FT/UnB, Mestre, Engenharia Elétrica, 2011)
REFERÊNCIA BIBLIOGRÁFICA
DALBEN JR., O. (2011). Reconhecimento de Nomes de Pessoas e Organizações em
Textos Forenses usando uma Variação do Modelo Oculto de Markov. Dissertação de
Mestrado, Publicação PPGENE.DM – XX A/XX, Departamento de Engenharia Elétrica,
Universidade de Brasília, Brasília, DF, 104p.
CESSÃO DE DIREITOS
AUTOR: Osvaldo Dalben Junior.
TÍTULO: Reconhecimento de Nomes de Pessoas e Organizações em Textos Forenses
usando uma Variação do Modelo Oculto de Markov.
GRAU / ANO: Mestre / 2011
____________________________
Osvaldo Dalben Junior
Universidade de Brasília
Campus Universitário Darcy Ribeiro – Asa Norte
CEP 70.910-900 Brasília/DF/Brasil.
v
vi
Dedicado à minha esposa Érica e aos meus filhos, Pedro, Thiago e Osvaldinho.
vii
viii
AGRADECIMENTOS
A Deus.
À minha esposa e meus três filhos, pela compreensão, paciência e coragem ao entrarem
comigo nesse projeto.
Aos meus pais, pelo incondicional apoio dado durante todo o período do mestrado.
À minha orientadora, Profª. Drª. Daniela Barreiro Claro, por ter me transmitido o
conhecimento e a experiência necessários ao cumprimento desta jornada e por ter
acreditado em mim.
Aos colegas do mestrado Polastro, Nassif e Rommel, pelas discussões, incentivos, elogios
e críticas que tanto enriqueceram o trabalho.
Aos colegas de trabalho, em especial aos PCF Dourado, Helena, Iracema e Mateus, pela
enorme compreensão e incentivo durante o árduo período de estudos.
Ao PCF Peixoto, por ter lançado a semente deste projeto e me incentivado a fazer parte
dele.
Ao DPF, à UnB e ao PRONASCI, por terem tornado viável a execução deste mestrado.
ix
x
RESUMO
RECONHECIMENTO DE NOMES DE PESSOAS E ORGANIZAÇÕES EM
TEXTOS FORENSES USANDO UMA VARIAÇÃO DO MODELO OCULTO DE
MARKOV
xi
xii
ABSTRACT
RECOGNIZING NAMES OF PEOPLE AND ORGANIZATIONS IN FORENSIC
TEXTS USING A HIDDEN MARKOV MODEL VARIATION
One of the current challenges in computer forensics is related to the analysis of computer
media seized in large quantities by the police. Files stored in these media may contain
names of people and organizations suspected, but unknown by the analysis teams. This
paper proposes the creation of a named entity recognition (NER) model based on the
Hidden Markov Model (HMM) to extract names of people and organizations contained in
unstructured text of seized media. The proposed model, called ICC-HMM (Identification -
Classification Context HMM) is divided into two sub-models – identification and
classification of entities - and uses the context information of words and a gazetteer in
order to obtain better performance. Experiments were carried out on forensic corpora and
our results outperformed some of the best REM-based systems in portuguese language.
This suggests that the proposed model is applicable in computer forensics.
xiii
xiv