Académique Documents
Professionnel Documents
Culture Documents
Assinatura:
2
Sumário
1 Detecção de Anomalia 2
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 A Natureza do Conjunto de Dados . . . . . . . . . . . . . . . 5
1.2 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Limitações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1 Especı́fico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Estrutura do texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7 Sı́ntese do capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3
3.7.5 Escore ODMAD . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.8 Sı́ntese do capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4 Experimentos Preliminares 48
4.1 Conjuntos de Dados Analisados . . . . . . . . . . . . . . . . . . . . . 48
4.2 Análise do conjunto de dados de Câncer de Mama Wisconsin . . . . . 49
4.3 Análise do conjunto de dados de Spam . . . . . . . . . . . . . . . . . 50
4.4 Análise do conjunto de dados de Musk . . . . . . . . . . . . . . . . . 51
4.5 Análise do conjunto de dados Promotergene . . . . . . . . . . . . . . 52
4.6 Análise do conjunto de dados de Ionosfera . . . . . . . . . . . . . . . 53
4.7 Conjunto de dados de Linfografia . . . . . . . . . . . . . . . . . . . . 54
4.8 Resultados dos experimentos preliminares . . . . . . . . . . . . . . . 56
4.9 Sı́ntese do capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 Projeto de Pesquisa 58
5.1 Abordagens Propostas . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.2 Atividades e Cronograma . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3 Sı́ntese do capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4
Lista de Tabelas
5
Lista de Figuras
6
Resumo
The anormality concept arose from several real situations suspected alarms,
such as sensor faults in appearance of new astronomical phenomena, on failure of
instruments, the appearance of cancer cells in normal tissues and a wide variability
in the network traffic computers. The anomaly detection is not a single process.
Selecting an approach to this process depends on the application domain, the nature
of the data, and the nature of the anomaly. Resume this process is based in differents
model, intuition, and suppose. Thus, an appropriate knowledge about existing
approaches is highly essential when you want to select a method for a particular
domain, [Gogoi et al 2011]. There is usually a clear distinction between an anomaly
and a reference point. An instance can be deviant in a subset of attributes, and
regular in another. Assume that a set of mixed data is generated by distinct
mechanisms so a set of local reference have been considered rather than the complete
data set by comparing an instance a set of reference. Traditional methods usually
identify anomalies in the full attributes of space, that is only a preview, and perform
comparisons between instances and point groups considering the complete data set,
[Müller et al. (2012)]. However, the attributes of subsets may be relevant to different
groups in different subspace. Thus the objective of this project is to research and
develop cluster analysis in subspaces in which you can select an algorithm for each
subspace, and the anomaly will be assessed according to their local neighborhood, ie,
the focus of research will be detect local anomalies in subspace. The flexibility of the
clustering in subspaces is very useful in the actual data of applications from different
subspaces mode has different attributes and different distributions, furthermore the
use of such methods allows for the identification and interpretation of anomalous
in a wide number of types of data. The subspace clustering problem is still not
sufficiently well defined and the evaluation of this approach is an issue open and
challenging. It presupposes that this technique is closely related to the ensemble
theory, because both involve the reconciliation of various performance techniques
and / or planning. Finally, it has to be the literature review was to identify the main
gaps present in this process. The experiment was redone planning given by Harkins
et al (2002) to detect anomalies. The algorithms used in this analysis fall into three
major subareas of clustering based density , partitioned, and the Gaussian mixture
models. The results of the experiments helped in understanding the basic concepts
used in data clustering.
Keywords: anomalies detection process, data cluster analysis no traditional, and
anomalous scores.
Capı́tulo 1
Detecção de Anomalia
1.1 Introdução
A ideia principal da detecção de anomalia surgiu de situações reais de suspeitas
de alarmes. Presentes, por exemplo, em ataques cibernéticos, em falhas de sensores,
em aparecimento de novos fenômenos astronômicos, em falhas em instrumentos, no
aparecimento de células cancerosas em tecidos normais, e em uma grande variabilidade
no tráfico da rede de computadores.
A presença de uma ou mais anomalias em uma base de dados pode ser justificada
segundo duas hipóteses. A primeira hipótese é que a presença de uma anomalia pode
ocorrer por causa de erros humanos, erros de instrumentação, falhas mecânicas ou
alterações ambientais, também denominada como um ruı́do. Nesse caso tais dados
devem ser removidos do conjunto de dados para que não comprometam a qualidade
das inferências. A segunda hipótese é que tal anormalidade presente no conjunto
de dados traduza a informações importantes. Portanto, vale a pena ser investigada
supondo a priori que à sua ocorrência é rara.
Para a separação entre ruı́do e novo evento são considerados diferentes fatores,
como a natureza dos dados, a disponibilidade de dados rotulados, os tipos de
anomalias a serem detectadas, entre outros fatores, [Chandola et al. (2009); Pimentel
et al. (2014)].
Não existe uma definição universal aceitável para o processo de detecção de
anomalias (em inglês outliers detection). Tal processo é referido na literatura tanto
como a identificação de eventos de interesse como a identificação de ruı́dos.
2
Uma definição popular para uma anomalia foi dada por Hawkins (1980), descrita
como segue.
”Uma anomalia é uma observação que se desvia significativamente das de-
mais observações do conjunto de dados e que supostamente foi gerada por
um mecanismo diferente do que gerou as demais observações estudadas”.
No entanto, vale ressaltar que o sentido de uma anomalia difere-se dependendo
da aplicação em questão. Por exemplo, em dados de saúde pública, um pequeno
desvio do normal do comportamento do corpo do Homem pode indicar a presença
de uma anomalia. Enquanto, que um pequeno desvio no mercado financeiro pode
ser considerado normal. Além disso, uma anomalia pode ser visualizada segundo a
significância dos subconjuntos de atributos em uma dada aplicação.
A classificação de comportamentos não usuais nos dados não é trivial. Uma das
técnicas para detecção de anomalias poderosa e geral são os métodos baseados em
grafos, que tratam a anomalia em tipos de conjuntos de dados com atributos mistos,
em conjuntos de dados espaciais, e em dados streaming, [Zhang et al.(2007)]. Nesse
cenário, a deteção de anomalias pode ser analisada considerando duas perspectivas: a
anomalias do ”corvo branco”(em inglês, “white crow”) e a anomalia ”em disfarce”(em
inglês, “in-disguise”). A definição de uma anomalia ”corvo branco”é similar a
definição dada por Hawkins (1980), e uma anomalia ”em disfarce”é uma instância
que apresenta um pequeno desvio do padrão normal [ van der Eems et al (2014);
Eberle e Detentor, (2007)]. Ambos os tipos de anomalias são ilustradas na Figura
1.1.
Dados Contaminados
7
Atributo 2
5
Normal
Corvo branco
Em disfarce
1 2 3 4 5 6 7
Atributo 1
Figura 1.1: Gráfico de dispersão com anomalias. Conceitos obtidos de Chen et al.
(2012).
3
uma anomalia ”em-disfarce”é a informação dada pelo escritório de nações unidas
que trata de drogas e crimes, relatou: ”a mais bem sucedida lavagem de dinheiro
ocorreu quando a imitação do padrão e do comportamento de transações do dinheiro
esteve mais próxima da legı́tima”, [Chen et al. (2012), Eberle e Holder (2007)]. A
seguir é apresentada uma árvore de tipos de anomalia e seus respectivos métodos
propostos de acordo com a teoria de grafos, ver Figura1.2.
Figura 1.2: Métodos em grafos para detecção de anomalias. Adaptado de Chen et al.
(2012)
.
4
A questão que um ponto próximo a um grupo é mais provavelmente uma anomalia
do que um ponto que se encontra mais distante desse grupo, também foi levantada
em Breunig et al. (2000) quando introduziu o conceito de ”anomalia local”, e
apresentou o Fator de Anomalia Local - LOF. O LOF têm uma teoria fundamentada
na conectividade da densidade dos pontos, e apresenta o grau de anormalidade para
cada instância. É um método popular e seus conceitos são frequentemente usados
como base para a construção de demais técnicas para detecção de anomalias local,
[Schubert et al. (2014)].
As abordagens não supervisionadas para a deteção de anomalias são divididas
em duas categorias: a abordagem global e a abordagem local.
1. A abordagem global realiza comparações entre os objetos considerando como
referência o conjunto de dados completo, ou seja, supõem que existe apenas
um mecanismo de geração dos dados.
2. A abordagem local realizar comparações entre os objetos seleciona um conjunto
de referência, ou seja, supõem queo conjunto de dados foi gerado por mais do
que um mecanismo. Não há suposição sobre o mecanismo de geração dos dados.
A limitação é selecionar um conjunto de referência apropriado para cada objeto
analisado.
A técnica de identificação de um ponto anômalo dado um conjunto de dados pode
considerar apenas uma análise ou diversas análises ao conjunto de dados. Algumas
das técnicas para detecção de anomalias são planejadas para identificar diferentes
quantidade de anomalias em uma única vez. Outras dessas técnicas identificam as
anomalias uma de cada por vez, de modo que o procedimento é repetido até que
todas as anomalias sejam removidas do banco de dados. Esse método é sujeito a
alta taxa de falsos negativos. Com relação as técnicas que identificam uma coleção
de anomalias de uma única vez, são ditas sofrerem de altas taxas de falsos positivos,
[Gogoi et al. (2011)].
Na próxima seção são descritos alguns dos principais tipos de dados que são
frequentemente encontrados em aplicações reais.
5
2. Dados complexos têm caracterı́sticas que os tornam complexos. Alguns desses
conjuntos de dados são descritos a seguir:
(a) Alta dimensionalidade são os conjuntos de dados com uma grande quanti-
dade de atributos.
(b) Escalabilidade são conjuntos de dados com grandes quantidades de ob-
servações, com tamanhos em terabytes e até petabytes.
(c) Tipo mistos são conjuntos de dados que contém tanto atributos assumindo
valores quantitativos (contı́nuos e discretos) como atributos assumindo
valores categóricos (binários e de múltiplas categorias).
(d) Sequências de observações são os conjuntos de dados que apresentam uma
sequência de entidades individuais, tais como sı́mbolos ou letras. Esses
dados não tem o mesmo comprimento e conhecida distribuição a priori.
O que dificulta a noção de padrão de similaridade estrutural entre duas
sequências.
(e) Espaciais são conjuntos de dados que contêm informações sobre a loca-
lização, a forma, a direção e outras informações geométricas ou topológicas.
Eles podem determinar vizinhança espacial em termos de relações espaciais,
como a distância ou adjacência.
(f) Streaming são conjuntos de dados com uma grande quantidade de dados
que chegam em tempo real de uma forma rápida e contı́nua, que usualmente
possui um tamanho ilimitado de instâncias, e possui escalabilidade e
dinamicidade.
(g) Espaço temporal são conjuntos de dados de fenômenos geográficos que
evoluem ao longo do tempo.
Vários tipos de dados descritos acima, podem ser expressos em forma de grafos.
Os grafos é uma forma flexı́vel e poderosa de expressar os dados. Os dados podem
ser representados como um único grande grafo, visto por exemplo nas redes de teias
sociais e de informação (em inglês web). Ou mesmo, pequenos múltiplos grafos
podem ser extraı́dos de um grande grafo, como em uma rede bibliográfica, em que
uma publicação é um pequeno grafo dentro de uma grande rede de correlacionadas
bibliografias. Em pequenos grafos, uma única instância pode ser vista como uma
anomalia, e em grandes grafos, as anomalias são definidas como partes da rede,
na qual são vértices, arestas ou subgrafos individuais classificados como anomalias
dependendo de suas conexões na rede, [Aggaward (2015)]. Na árvore abaixo são
apresentadas algumas métodos propostos para tratar particulares tipos de conjunto
de dado.
Entre as abordagens para detecção de anomalias os método não supervisionados
são reportados na literatura como os mais utilizados, sendo que a maioria deles
baseiam-se nos conceitos de análise de agrupamento de dados. Diante disso, diversos
autores buscam realizar uma ampla revisão da literatura da área no intuito de
confirmar tal hipótese, [Das (2009), Steinbach et. al. (2014), Zimek et. al. (2012)].
Maiores detalhes são apresentados na revisão bibliográfica, no Capı́tulo 2.
6
Figura 1.3: Árvore de métodos classificados pelo tipo de conjunto de dado. Adaptado
de Zhang et al. (2007).
1.2 Motivação
Anomalias são instâncias excepcionais em algum sentido. No geral, elas contém
aspectos importantes da aplicação de interesse. Por essa razão, diferentes domı́nios
de aplicação tem se mobilizado para desenvolver e aplicar as técnicas de detecção de
anomalias, entre às diferentes areas do conhecimento que utilizam de detecção de
anomalias em suas análise de dados podemos citar: o monitoramento ambiental, a
medicina e a saúde pública, a localização e o rastreamento, e a logı́stica e o transporte,
[Hodge e Austin (2004)].
A qualidade dos dados é uma questão importante que envolve vários aspectos
como precisão, perfeição, integridade, consistência, atualidade, credibilidade, inter-
pretabilidade, rastreabilidade e acessibilidade dos dados, presença de ruı́do e de
novos eventos, valores faltantes, dados duplicados, entre outros fatores, [Pipino et al.
(2006)].
O processo de detecção de anomalia enfrenta diversas dificuldades, entre elas
esta a falta de dados rotulados, porque a tarefa de rotulagem dos dados não é
uma tarefa trivial. Tal dificuldade, em alguns casos se remete tanto a presença de
grandes tamanhos de amostras como a presença erros de classificação. Por exemplo,
um especialista em radiologia está predestinado a contradizer-se em 20% das vezes
quando avalia uma radiografia de tórax e a clássica como normal ou anormal. Assim
demanda-se de mais recursos e informações adicionais para se obter classificações
mais confiáveis do Homem, assim tal processo se torna mais caro e mais demorado,
[Kahneman (2011)].
Os métodos não supervisionados para a detecção de anomalias são preferidos
pelos pesquisadores, porque eles não depende de dados classificados como normal ou
anômalo, ou amostras treinadas classificadas. Ao contrário dos métodos supervisi-
onados e semi supervisionados que necessitam de dados rotulados para treinarem
7
previamente os seus modelos [Gogoi et al. (2011)].
Em aplicações reais é usual a presença de atributos de diferentes naturezas em um
mesmo conjunto de dados, e a ocorrência de anomalias nos dados pode ser provocada
pela interação entre os atributos categóricos e os atributos numéricos, mas usualmente
os métodos utilizados para detectar anomalias trabalham com atributos numérico ou
atributos categóricos. Assim, a análise individual dos atributos é insuficiente para
detectar todas as possı́veis anomalias presentes nos dados, [Katdare e Jin (2011);
Aggarwal (2015)].
Os aspectos do processo de detecção de anomalias são apresentados na Tabela 1.4.
Foram consideradas apenas as referências para tipos de dados mistos. No entanto, os
autores apresentam uma extensa revisão com 55 referências em que a maioria delas
detecta anomalias em conjuntos de dados númericos, e poucas são as referências em
que se trata anomalias em conjuntos de dados complexos, como pode ser visto pela
quantidade de referências que tratam dados mistos a seguir. Referente a abordagem
de subespaço na qual pretende-se utilizar para dados mistos, apenas é utilizada para
conjuntos de dados númericos com alta dimensão. Em particular nenhuma dessas
referências trata anomalia em dados mistos com alta dimensão, [Zhang et al. (2007)].
Sendo uma das razões que justifica a pesquisa e o desenvolvimento de uma técnica
para análise de anomalia em dados mistos.
8
construı́do de individuais detectores de anomalias sobre diferentes subconjuntos de
atributos selecionados aleatoriamente, [Schubert et al. (2012)].
Em subespaços não define-se anomalia com respeito a um subespaço especı́fico,
mas como resultado da combinação de múltiplos escores obtidos de diferentes algorit-
mos de detecção de anomalias aplicados a todos os subespaços de interesse. Essa
técnica pode apresentar uma significativa melhora com relação a identificação de
anomalias e interpretação da sua presença nos dados, porque se visualiza distintas
configurações dos dados, e se aplica um mais conveniente método para cada subespaço.
No entanto, os escores anômalos usualmente são muito difı́ceis de serem comparados.
Além disso, na última década, as abordagens desenvolvidas em mineração de
dados para a detecção de anomalia têm desconsiderado os conceitos estatı́sticos, e
assim focado apenas na eficiência de algoritmos e deixado de lado a interpreção
dos resultados. Por essa razão na maioria das abordagens os escores anômalos não
auxiliam no processo de decisão para classificar uma instância como anômala ou
inlier, [Schubert et al. (2012)].
1.3 Hipóteses
Supõem-se neste trabalho que o processo de detecção de anomalias é induzido por
diversos fatores, entre eles podemos citar a natureza dos dados, os tipos de anomalias,
o método selecionado para a detecção de anomalias, o cenário de uma particular
aplicação. Vale ressaltar que a maioria dos algoritmos de análise de agrupamento
tradicionais formam grupos com formas convexas. No entanto, as formas naturais
dos grupos de dados têm comumente aparências curvilı́neas, [Aggarwal e Yu (2001)].
Assim, pressupõe-se que as abordagens em subespaços são ferramentas flexı́veis
de tal forma que pode-se bem tratar distintos cenários. Justificado por suas boas
propriedades, no que se remete a viabilizar o trabalho com uma ampla variedade de
tipos de conjuntos de dados, alta dimensionalidade dos dados, sobreposição de grupos,
presença de pontos nas fronteiras dos grupos, construção de grupos com formas
arbitrárias e da distinção de anomalias e ruı́dos, além de viabilizar a interpretação da
presença de anomalias nos dados, [Chandola et al. (2009); Pimentel et al. (2014)].
1.4 Limitações
O processo de detecção de anomalias não é um problema bem formulado. A
natureza dos dados, o natureza das anomalias, as restrições e as suposições coletiva-
mente constituem a formulação do problema. As principais questões abordadas neste
processo são descritas a seguir, [Zimek et al. (2012); Gogoi et al. (2011); Muller et
al. (2009); Zhang et al. (2007)]:
9
2. Muitas vezes, os dados podem conter ruı́dos e novos eventos, e um se assemelhar
ao outro, de tal forma que, os ruı́dos sejam difı́ceis de serem distinguidos e de
serem removidos do conjunto de dados;
10
11. A maioria dos algoritmos de agrupamento tradicionais apresentam as limitações
descritas: (i) os algoritmos são otimizados para encontrar grupos, e não pontos
anômalos; (ii) a acurácia de detecção de anomalias depende da eficiência do
algoritmo em capturar a estrutura dos grupos; (iii) um conjunto de pontos
anômalos que são similares entre si são considerados como um grupo ao invés
de um grupo de ruı́dos ou de anomalias; (iv) as estimativas de seus parâmetros
exercem grandes influências no resultado final.
1.5 Objetivos
Pesquisar, desenvolver e comparar técnicas não supervisionadas para identificar
observações anômalas em conjunto de dados mistos tendo três âmbitos de interesse:
cientı́fica, pessoal e social. No que concerne ao conhecimento cientı́fico, a futura
pesquisa preencherá lacunas existentes no âmbito teórico. Tais lacunas devem-se as
informações de difı́ceis acesso, uma vez que a bibliografia especı́fica ao tema abordado
é escassa. Com relação ao interesse como pesquisador, a pesquisa contribuirá na
confiabilidade das inferências e na descoberta de fatores relevantes em diversas áreas
do conhecimento que trabalham com bases de dados contaminadas com atributos
mistos. Uma vez que uma nova técnica seja criada, a uma contribuição no âmbito
cientı́fico é realizada. Do ponto de vista social, a técnica será mais uma ferramenta
para detectar anomalias com a combinação de conceitos de mineração de dados e de
estatı́stica, porque buscará unir eficiência e a interpretação da presença de anomalias
em um conjunto de dados.
1.5.1 Especı́fico
1. Buscar por trabalhos cientı́ficos o estado-da-arte relacionados com os objetivos
de interesse;
5. Buscar pela teoria ensemble para combinar os escores anômalos obtidos como
resultados da aplicação de diversos algoritmos para detecção de anomalias;
11
dos objetivos, das hipóteses e das lacunas da área. No Capı́tulo 2 é apresentado um
resumo dos principais pesquisas, o estado da arte, relacionadas aos objetivos desta
tese. Por sua vez, no Capı́tulo 3, são descritos os métodos que serão pesquisados. No
Capı́tulo 4 são apresentados os experimentos preliminares realizados com os algorit-
mos de análise de agrupamento que formam a base da maioria dos métodos dessa
área. Os planejamentos dos experimentos juntamente dos detalhes dos resultados
obtidos de cada problema proposto são descritos nesse Capı́tulo. No capı́tulo 5 são
apresentas as propostas de pesquisa e desenvolvimento desta tese.
12
Capı́tulo 2
2.1 Introdução
O processo de identificar anomalias em dados é uma área que esta em constante
desenvolvimento, na qual acumula uma grande quantidade de métodos. Apesar
disso, esse processo não esta bem definido por não existir uma universal abordagem
para detectar anomalias. Nesse cenário, é impossı́vel descrever todos os processos
avaliados, mas esta revisão foi realizada de uma forma geral e diversificada com
intuito de identificar o problema de um âmbito geral.
Um amplo domı́nio do conhecimento tem mostrado interesse na sua aplicação.
Assim, os trabalhos publicados na área apresentam uma grande diversidade de
aplicações e métodos. De uma forma geral as técnicas são baseados em: métodos de
classificação, análise de agrupamento [Jiang et al. (2006)], projeção aleatória [ Ye
et al. (2009)], grafos [Gogoi et al. (2011); Bhuyan et al. (2014), Yin et al. (2014)
], proximidades[ Orair et al. (2010)], densidade [ Ning e Tsung (2012); Breunig et
al. (2000)], profundidade [Chen et al. (2009)], distribuição de probabilidade [Fraley.
e Raftery (2011)], ambientes distribuı́dos propostas intrusivas [Tak et al. 2009] e
ambientes distribuı́dos propostas não intrusivas [Natarajan et al. 2012]. Diversos
trabalhos fornecem extensas revisões com relação ao processo de deteção de anomalia,
[Aggarwal (2013), Zimek et. al. (2012), Chandola et al. (2009), Hodge e Austin
(2004), e Zhang et al. (2008)].
Existem técnicas de detecção de anomalias mais genérica e podem tratar vários
domı́nios de aplicação, enquanto outras são diretamente ligadas a um domı́nio
13
de aplicação particular. Mas, no geral, considera-se nesse processo a seleção de
um método: em termos do conhecimento das caracterı́sticas do(s) atributo(s), da
escalabilidade, da dimensionalidade, da disponibilidade de dados rotulados, do(s)
tipo(s) de anomalia(s) de serem detectadas, do custo computacional, da capacidade
preditiva do método, [Gogoi et al. (2011)].
Existem dois aspecto em detecção de anomalia em que os dados podem estar
inseridos: um aspecto é estática (em inglês, off-line) e a outra é contı́nua (em
inglês, on-line). A detecção de anomalia on-line é significativamente diferente se
comparada a detecção de anomalia (off-line). Os dados on-line as informações chegam
continuamente em um ritmo rápido. A ideia mais trivial é que o comportamento
usual das informações altera-se no decorrer do tempo, assim é preciso atualizar tal
comportamento dinamicamente com registros que são provavelmente normais, pois
admite-se que a presença de um dado anômalo é rara. Um problema presente quando
se trabalha com dados on-line é que um novo grupo é formado com um dado que
chega, e os usuais métodos para detecção de anomalias não são capazes de distinguir
se um ponto que acabou de chegar na base de dados é anômalo ou é normal, nem no
momento quando ocorre a mudança, [Bhuyan et al. (2014)].
As pesquisas em detecção de anomalia iniciaram na área de Estatı́stica, mas
atualmente estão mais concentradas em Mineração de Dados, em que usualmente
se considera a noção de vizinhança ao invés da noção de variabilidade dos dados.
Muitas das técnicas de detecção de anomalias estão presentes em aprendizado de
máquina (AM) que é uma área de pesquisa da Inteligência Artificial (IA) que esta
dividida em três grandes classes: aprendizado supervisionado, semi-supervisionado e
não-supervisionado, [Chandola et al. (2009)], Knorr e Ng (1998)].
A análise de dados clássica utiliza o conceito de profundidade, na qual não se
admiti uma distribuição de probabilidade para os dados. As instâncias são organizadas
em camadas convexas no espaço, e uma anomalia é uma instância que assume um
valor na baixa profundidade. Esse método é computacionalmente inviáveis para
conjuntos de dados com mais do que três dimensões, [Gao e Tan (2006)].
As seguir são apresentadas revisões sobre os métodos baseados: em proximidade,
em técnicas estatı́sticas, e em análise de agrupamento.
14
3. Para um conjunto de atributos contı́nuo é usual utilizar uma medida de distância
ou de similaridade para cada atributo e então combina-los.
Dist(oi , oj ) = Σm 2 mc
t=1 (wt (o1t − o2t )) + Σt=1 δ(wt (o1t , o2t )),
r
(2.1)
15
2.3 Métodos estatı́sticos
Os primeiros trabalhos realizados em detecção de anomalias foram da área de
Estatı́stica. Tais abordagens buscam por técnicas robustas que sejam capazes de
capturar a real variabilidade dos dados e assim as estimativas dos parâmetros não
sejam viesados. Simples medidas resumos, a medida de assimetria e de curtose da
distribuição foram usadas em Zhang e Kosecká (2006) para separar anomalias de
pontos de referência, mas o uso de tais medidas está restrita a dados gerados de uma
única distribuição.
Os métodos estatı́stico utilizados para detecção de anomalias se dividem em:
métodos paramétricos que se baseiam em distribuições de probabilidades para os
dados, na qual tem sido utilizados conjuntamente com abordagens supervisionadas
para se obter padrões gerais para anomalias. Nesse contexto, uma anomalia é uma
instância que não bem se ajustou ao modelo proposto, [Jiang (2009)e Kovács et .al,
(2004)], e método não paramétricos que não assumem conhecida a distribuição dos
dados, por exemplo, os métodos de alisamento, de binning, de bagging, os baseados
em profundidade, testes de hipóteses, análises gráficas e análises de diagnósticos,
[Gao e Tan (2006)].
Em estudos de observações independentes, uma popular abordagem são os modelos
de mistura também denominados por agrupamento de modelos utilizado para detectar
anomalias e novidades. Uma novidade é um padrão nos dados que surgiu devido
a informação não identificadas ou é um padrão não identificado anteriormente
no estudo. Os modelos de mistura consistem de uma soma ou composição de
distribuições de probabilidade e/ou função densidade de probabilidade dependendo
do tipo do atributo analisado. A detecção de novidade vem sendo muito pesquisada
em aplicações envolvendo grandes volumes de dados adquiridos de sistemas crı́ticos.
Em estudos de observações dependentes, como as séries temporais que é usual
determinar o contexto (ou proximidade) do evento devido termos o tempo que
determina a posição do evento sobre a sequência toda, [Salvador e Chan (2003)],
e no caso, de dados espaciais, em que pode-se ter atributos que determinam a
localização, como a latitude e a longitude, [Kou et al. (2006)]. Nesse contexto, os
mais populares modelos são os modelos de séries temporais univariados, como os
modelos autorregressivos de médias móveis (ARMA), autorregressivos integrados de
médias móveis (ARIMA), e autorregressivos integrados de médias móveis (ARIMA),
[ Manish Gupta et al. (2013)]; soma acumulativa (CUSUM), [Montgomery (1996);
Das (2009)].
A detecção de anomalias em dados dependentes não é trivial, porque é necessário
identificar instâncias com surpreendente combinação de propriedades temporais, e
como eles modo serem camuflados na mudança da tendência, da sazonalidade, ou
do cı́clico. De tal forma que as técnicas para a detecção de anomalia temporal são
muito diferentes se comparadas as técnicas de detecção de anomalia gerais.
16
estão distantes dos centros dos grupo, ou que pertencem aos pequenos e dispersos
grupos devem ser investigados, e na maioria dos casos são assumidos serem anômalos,
[Chandola et. al. (2009), Amer (2011)].
O critério de homogeneidade dentre os grupos, e o tamanho de um grupo depende
do problema. O que no geral ambos são difı́ceis de serem definidos na prática. Uma
solução é definir um limiar para se estimar o tamanho dos grupos, [Sim et al. (2013)].
Pode-se considerar que existem três diferentes classes de algoritmos de agrupa-
mento: os algoritmos combinatórios, os modelos de mistura, e os de modo de busca.
Na árvore são apresentadas as subáreas de análise de agrupamento. A parte não
tradicional do agrupamento de dados foi desenvolvida para tratar aplicações com
conjuntos de dados com alta dimensão.
17
Uma vez que duas instâncias foram separadas, elas não mais serão agrupadas no
mesmo grupo. A qualidade desse agrupamento depende de critérios previamente
estabelecidos, [Rodrigues (2009)].
Na abordagem aglomerativa, cada instância é um grupo, e a cada etapa do
processo, os dois grupos mais similares são unidos até que, ao final, exista um único
grupo formado por todos as instâncias. Uma vez que unidas duas instância em um
mesmo grupo, elas não mais se separam. A qualidade desse agrupamento depende
fortemente do método de proximidade selecionado.
Para separar ou dividir subconjuntos de pontos em vez de pontos individuais, a
distância entre pontos individuais tem de ser generalizada para a distância entre os
subgrupos denominada de métrica de ligação. As principais métricas de ligação entre
grupos [Murtagh (1985), Olson (1995)] são a ligação simples ( em inglês single link ),
a ligação média (em inglês mean link ), e a ligação completa (em inglês complete link ).
Formalmente,
d(C1 , C2 ) = operacao(d(oi , oj ), oi ∈ C1 , oj ∈ C2 )
A fórmula atualizada de Lance-Williams é uma generalização das ligações métricas
ilustradas acima,
18
aglomerados de diferentes formas e tamanhos, e é insensı́vel a anomalias, pois usa de
amostragem, [Berkhin].
Nas publicações de Guha et al. (1998, 1999) são apresentados os algoritmos
agrupamentos robustos hierárquicos aglomerativos para conjuntos de dados com de
baixa dimensão, denominados CURA e ROCHA, respectivamente. A diferença entre
ele é que o algoritmo CURA foi planejado para trabalhar com atributos numéricos, e
o algoritmo ROCHA para trabalhar com atributos categóricos.
O algoritmo de agrupamento robusto para dados categóricos - ROCHA, [Guha
et al. 1999] é análogo ao algoritmo CURA, e eles têm como caracterı́sticas: (1)
são agrupamento hierárquicos, (2) aglomeram continuamente até que determinado
número de grupos seja formado, e (3) utiliza de dados de amostragem. Os conjuntos
consistem em pontos com um elevado grau de conectividade entre pares de pontos
dentro de um grupos.
O ROCHA utiliza da função objetiva, e quando trabalha-se com atributos ca-
tegóricos é necessário preocupar-se com a presença de possı́veis erros de classificação,
erros de entrada de dados, e a duplicação de instâncias. Sendo que os erros de
classificação são definidos como classes fora do léxicos do atributo, e um erro de
entrada de dados, por exemplo, são os erros de ortografia, e a duplicação são en-
tradas duplicadas distintas em uma lista para um mesmo destinatário, [Elavarasi e
Akilandeswar (2014)].
Algoritmo k-médias
O algoritmo de agrupamento particionado mais conhecido é o k-médias (em inglês
k-means) [Hartigan (1975)]. Ele não é um algoritmo robusto e a presença de anomalia
nos dados pode degradar severamente o seu desempenho, [Tan et. al. (2006)].
É um método iterativo que busca minimizar a soma dos quadrados dentre os
grupos para um número previamente determinado de grupos, [Hartigan e Wong
(1979)]. O algoritmo começa com uma estimativa inicial para os centros dos grupos
(centroides), os grupos são formados por instâncias próximas aos centroides. A
cada iteração, os centroides são atualizados, e todo o processo é repetido até que os
centroides já não se movam mais.
O resultado do k-médias depende da inicialização dos valores dos centroides no
primeiro passo e da estimativa do número de grupos k . Uma alternativa é correr
várias vezes o algoritmo para reduzir o erro de aproximação aos valores iniciais dos
centroides com o objetivo de que o algoritmo encontre o mı́nimo global da soma
de quadrados total intra grupo, e com relação a k, por exemplo, pode ser estimado
utilizando um adequado algoritmo hierárquico ou um gráfico escarpa (em inglês
screen plot).
19
A média amostral dos valores dos elementos de um determinado grupo é a
estimativa dada para o centroide cj . À sua formulação é dada a seguir,
1 nj (j)
cj = Σ x (2.2)
nj i=1 i
O objetivo do k-médias é de minimizar a soma de quadrados total intra grupo
definida por,
2
nj
(j)
Σkj=1 Σi=1
xi − cj
→ min, (2.3)
(j) (j)
em que ||xi − cj ||2 é a distância Euclidiana entre um elemento xi e o centroide
cj do grupo j, no entanto outra medida de distância pode ser utilizada. A função
dada mostra claramente que nem todas as distâncias pareadas são necessárias para o
algoritmo, mas apenas as distâncias dos elementos de um grupo ao seus respectivos
centroides.
Algoritmo k-medoides
O algoritmo k-medoides e k-médias diferem-se, no geral, com relação a estimativa
dos centroides dos grupos. No caso do k-médias considera-se a média amostral, e o
k-medoides considera as localizações que bem representam os grupos.
Pelo fato, da média aritmética não ser uma estimativa robusta consequentemente o
algoritmo k-médias também não é. Por outro lado, temos que o algoritmo k-medoides
que é robusto, desta forma apresenta um desempenho satisfatório na presença de
anomalias nos dados, porém apresenta maior tempo computacional se comparado ao
k-médias.
O algoritmo Partitioning Around Medoids (PAM) busca pelos melhores k-medoides
nos dados e bem trabalha com amostras pequenas. Para grandes bases de dados
foi desenvolvido o algoritmo Clustering LARge Applications (CLARA) que realiza
uma amostragem, selecionando subamostras baseada na média de dissimilaridade
do conjunto de dados e para cada uma das subamostras é implemento um PAM.
Tal procedimento de amostragem permite uma melhora na eficiência do tempo
computacional. [Kaufman e Rousseeuw (1990)].
20
são formados por conectividade de densidade de pontos. O mais popular método de
agrupamento baseado densidade é DBSCAN.
O processo realizado pelo DBSCAN é descrito: se a quantidade de pontos
conectados for menor do que o número mı́nimo de pontos, Minptos, a amostra é
considerada como uma anomalia ou como uma instância que esta na fronteira de um
grupo. Um ponto está na vizinhança de um grupo se a distância dele ao centro desse
grupo é menor do que um valor ε. Se a quantidade de pontos vizinhos for maior ou
igual ao Minptos um grupo é formado, caso contrário a região é considerada ruidosa.
O algoritmo transita por todos os pontos várias vezes realizando o processo descrito.
As limitações do DBSCAN são descritas: exige dois parâmetros ε e Minptos
inicialmente para execução do algoritmo, e é sensı́vel ao valor das estimativas desses
parâmetros, não consegui agrupar dois conjuntos de dados com grandes diferenças de
densidade, e perde à sua eficiência em dados com alta dimensão, [Tan et. al. (2005 );
Swathi et. al. (2012)].
O algoritmo DBSCAN apresenta um modelo de agrupamento bem definido.
Semelhante ao agrupamento baseado em ligação, que baseia-se em pontos de conexão
dentro de certos limites de distância. No entanto, ele apenas conecta-se aos pontos
que satisfaçam um critério de densidade, que é definida como um número mı́nimo de
pontos internos dado o raio ε. Esse algoritmo respeita a forma natural dos dados
e tem uma complexidade computacional baixa, devido exigir um número linear de
consultas de intervalo no conjunto de dados. Esse algoritmo é capaz de identificar os
centros dos grupos e as anomalias, mas não é capaz de separar os ponto das fronteiras
dos pontos pertencentes a um grupo, portanto, não há necessidade de executá-lo
várias vezes. Por essa, razão é um método inadequado para casos em que os grupos
não são bem separados.
A seleção do parâmetro ε não é trivial. Uma sugestão é o gráfico K-dist para
identificar o valor de ε e analisar dos nı́veis de densidade dos pontos, [Swathi et. al.
(2012)]. O algoritmo OPTIC (Ordenação de Pontos para Identificar a Estrutura de
Agrupamento) é uma generalização do DBSCAN e produz um resultado relacionado a
hierárquica da agrupamento. Diferente do algoritmo DBSCAN no algoritmo OPTIC
não é exigido a estimativa de ε para à sua execução.
As principais desvantagem dos algoritmos DBSCAN e OPTIC é que eles buscam
por áreas de baixa densidade para determinar as fronteiras do grupo. Além disso, eles
não podem detectar estruturas de fragmentação intrı́nsecas que são predominantes
na maioria dos dados reais. Uma variação de DBSCAN é o EnDBSCAN (Embedded
Cluster Using Density Based Techniques ) que detecta eficientemente esses tipos de
estruturas, [Barua et. al. (2012); Roy et. al. (2005)].
21
Formalmente, admite-se que existem k distribuições de probabilidade e um
conjunto de parâmetros Θ = {θ1 , · · · , θk }, em que θj é o subconjunto de parâmetros da
j-ésima distribuição de probabilidade. Um tamanho n de instâncias são consideradas,
O = {o1 , · · · , on }.
A probabilidade que a j-ésima distribuição gerar a instância oi é dada pela
probabilidade por P (C = cj ), para 1 ≤ j ≤ k e Σkj=1 P (C = cj ) = 1 . A probabilidade
de uma instância oi ser gerada é , [Tan et. al. (2006)].
k
X k
X
P (oi ; Θ) = P (oi ∩ Cj = cj ) = P (oi |C = cj )P (C = cj ) (2.4)
j=1 j=1
n X
Y k
P (χ|Θ) = P (O = oi |C = cj )P (C = cj ) (2.5)
i=1 j=1
22
n
Y
L(θ; o1 , · · · , on ) = f (o1 ; θ) · f (o2 ; θ) · · · f (on ; θ) = f (oi ; θ), (2.6)
i=1
n
X
l(θ; o1 , · · · , on ) = lnf (oi ; θ). (2.7)
i=1
23
Capı́tulo 3
24
de anormalidade local - LOF. O LOF é um sistema que resulta em um escore anômalo
para cada instância. É baseado na noção de um dados ponto conectado densamente
à sua vizinhança. Os pontos localizados em regiões de muito baixa densidade são
classificados como anomalias. As estimativas das densidades são obtidas usando de
distâncias entre instâncias.
Os procedimentos básicos do cálculo do escore anômalo para cada instância são
descritos, a seguir [Torgo (2010)]:
1) Para obter a distância de uma instância o à sua vizinhança mais próxima é usado
os conceitos de kNN;
25
Figura 3.1: Esquema de deteção de anomalias local. Adaptado de Schubert et al.
(2014)
.
1) Construção do modelo
2) Comparação de modelo
26
Em alguns casos, é necessário normalizar as informações, seja para que seus
valores fiquem no intervalo [0:1], ou para que fiquem com média zero, µ = 0, e
variância igual a um, σ = 1, ou até mesmo trabalhem sobre ranks. Qualquer que seja
a transformação realizada ocorrerá perda de informação, mas em geral, obtém-se
uma maior confiança com relação aos resultados finais obtidos.
Os escores anômalos obtidos de métodos locais são capazes de bem se adequar
a flutuações na densidade local e assim serem comparáveis sobre um conjunto de
dados contendo diferentes densidades, [Schubert et al. (2012)].
Para ilustrar os procedimentos de detecção de anomalias local em Schubert et
al. (2014) é utilizado os conceitos do LOF como base. As etapas realizadas para
obtenção do escore LOF são dadas a seguir, [Breunig et al. (2000)]:
1
lrd(o) := P , (3.1)
q∈contexto(o) alcance−distanciak (o,q)
|contexto(o)|
lrd(s)
LOF (o) := avgs ∈ ref erencia(o) (3.3)
lrd(o)
27
vizinhança decrescem a medida que à distância entre um ponto central e os pontos
da sua vizinhança mais próxima aumenta, e vice versa. Se um dos vizinhos têm uma
distância a com relação a o, espera-se que o valor assumido por o seja próximo a uma
estimativa amostral ponderada de sua vizinha mais próxima, formalmente, [Torgo
(2010)]
28
conta as caracterı́sticas dos outros indivı́duos para calcular à sua distância. Vamos
considerar quatro exemplos, a fim de compreender como a similaridade entre dois
indivı́duos pode ser calculada, [Husson et. al.(2011)]:
4. Se dois indivı́duos compartilham uma categoria rara, eles devem estar juntos,
apesar de serem diferentes em outros casos, a fim de explicar à sua distinção
comum.
29
Ambos os problemas precisam ser resolvidos simultaneamente, e à sua solução é
obtida da aplicação de heurı́sticas para ambos os casos. Trabalhar com apenas os
subespaços relevantes leva a redução do custo computacional de forma que tem-se
da ordem de 2p - 1 subespaços possı́veis a serem analisados, em que p é a quantidade
de atributos de um conjunto de dados.
A definição de cinco classes de algoritmos de análise de agrupamento para tratar
conjuntos de dados com altas dimensões são descritas a seguir, [Kriegel et al. (2009);
Sim et al. (2013)].
30
Tabela 3.1: Relevantes caracterı́sticas dos algoritmos de análise de agrupamento em
espaços de altas dimensões. Adaptada de Sim et al. (2013).
Técnicas PD a Bb Cc Q d D e 3Df Sobreposição g
√ √ √ √ √ √ √
Em subespaços
√ √ √ √ √
De projeções
√ √ √
Em correlação
√ √ √ √ √
Em padrão
a
palavras de documentos
b
atributos binário
c
atributos categórico
d
atributos contı́nuo
e
atributos discreto
f
forma grupos em 3 dimensões
g
identifica grupos sobrepostos
31
Supostamente qualquer algoritmo de agrupamento de dados em subespaço tratam
conjuntos de dados com anomalias e tem dificuldade em segmentar observações
quando os subespaços são próximos uns dos outros, [Soltanolkotabi et al. (2014)].
O agrupamento em subespaços consiste na formação de grupos em subespaços
considerando a similaridade ou dissimilaridade entre as instâncias. Um escore anômalo
é utilizado para a classificação significativa com o objetivo de integrar as múltiplas
visualizações, [Muller et al. (2012)].
Em análise de agrupamento em subespaço o critério de homogeneidade em grupos
categóricos é frequentemente relativo a identificação dos valores de cada atributo.
Se identificada alguma dissimilaridade nos atributos pode se usar, por exemplo, a
distância de Hamming ou ı́ndice de Jaccard, [Guha et al. (1999)] .
Para quantificar as distâncias entre os subespaços uma medida angular é con-
siderada, por serem ditas mais robustas se comparadas as medidas de distância
tradicionais.
As instâncias são agrupadas em regiões densas em subespaços unidimensionais,
enquanto que as anomalias são dispersas em espaços de dimensões altas. Em geral, o
desvio de instâncias é altamente influenciado pelo número de atributos considerados
por subespaço, [Müller et al. (2011)].
Uma solução ingênua é testar todos os possı́veis subespaços orientados arbitrari-
amente para realizar a análise de agrupamento. Obviamente, existem um número
infinito de subespaços orientados arbitrariamente, de modo que está solução ingênua
é computacionalmente inviável. Em vez disso, deve-se decidir com base em dimensões
individuais e agrega-lás a um subespaço de alta dimensão.
Em subespaços irrelevantes a vizinhança de uma instância é distribuı́da de forma
aleatória e uniforme de tal forma que todos as instâncias parecem ser anômalas.
Além disso, se a quantidade de atributos irrelevantes em um conjunto de dados
for grande, as anomalias podem facilmente serem mascaradas. Por outro lado, em
subespaços relevantes (ou projeções) à sua detecção é relativamente fácil, porém o
desafio é escolher o subespaço adequado, porque a relevância de um atributo está
relacionada a determinados subgrupos de instâncias de uma dada aplicação, [Müller
et al. (2011); Kriegel et al. (2010)].
As limitações em se detectar anomalias em subespaços se remete a: definir
um adequado limiar para classificação dos subespaços anômalos, definir o grau
de anormalidade de anomalias projetadas em diferentes subespaços anômalos, e
encontrar um algoritmo capaz de identificar eficientemente as k maiores anomalias
projetadas. Além do mais, cada instância, mesmo que se afaste substancialmente de
qualquer subespaços, é muito provável pertencer, a pelo menos, alguns grupos em
outras projeções. Assim, anomalias não são simplesmente instâncias não agrupadas.
A distância entre subespaços, a distribuição das instâncias em cada subespaço,
e o número de instâncias em cada subespaço afetam a eficiência dos algoritmos de
agrupamento em subespaços. Assim, nem sempre é possı́vel identificar corretamente
os grupos em subespaços de 3D, [Soltanolkotabi et al. (2014); Vidal (2010)].
A maioria dos métodos consideram a densidade da anomalia o, e a densidade da
sua vizinhança anômala no espaço de dados completo. O primeiro modelo proposto
para subespaços anômalos particionava o espaço de dados dentro de um grid de
células. Para uma única célula, um número esperado de pontos contaminados podem
32
ser calculados assumindo uma distribuição uniforme. Como os subespaços ou os
grupos podem ser vistos como grupos de células da grid densas, todos os pontos
contidos em células da grid esparsas esperadamente podem ser visto como anomalias,
[Kriegel et al. (2012); Müller et al. (2011); Hsu et al. (2004)].
Si = o ∈ RDn x p : o = µi + Ui y (3.5)
33
um único subespaço para cada grupo de pontos usando PCA padronizado.
Por outro lado, se os parâmetros dos subespaços forem conhecidos pode-se
encontrar os pontos que melhor se ajustem a cada subespaço. Na prática, nem
a segmentação dos dados e nem os parâmetros dos subespaços são conhecidos.
(1) Considere Dn x p .
34
Após o cálculo do fator anômalo para cada instância em todos os subespaço de
entradas, em seguida são integrados os resultados de cada processo para obter o
resultado final. Nesta etapa, são utilizados alguns dos conceitos de aprendizagem
ensemble.
Pressupõem que os fatores anômalos das instâncias O ∈ Dn x p após a fusão de
todos os subespaços S1 , S2 , · · · , Sk de fatores anômalos, para os k subespaços de
entrada é dado por OF(o) = ⊕(S1 , S2 , · · · , Sk ), em que ⊕ é ooperador combinando.
Note que se k= 1, então temos ⊕(S1 , S2 , · · · , Sk ) = S1 .
Segue abaixo a descrição de alguns dos básicos operadores que são suficiente em
unificar pesquisas existentes em estrutura de detecção de anomalias em subespaços.
35
3) Métodos estatı́sticos assumem conhecida a distribuição dos dados nos subespaços,
como é feito, na mistura de probabilidade PCA - MPPCA , na compressão com
perdas aglomerativa (ALC), e no consenso de amostra aleatória - RANSAC.
MPPCA é uma mistura de Gaussianas que pode ser aplicada para subespaços
afins e lineares. É visto como uma versão probabilı́stica de K-subespaços, por
ambos serem simples e intuitivos e cada iteração pode ser calculada de forma
fechada utilizando probabilidade PCA - PPCA. ALC é robusto, e parte do
princı́pio que os dados foram gerados de uma mistura de Gaussianas degeneradas.
Por sua vez, RANSAC ajusta um modelo probabilı́stico e identifica as anomalias
na análise de resı́duos.
4) Métodos baseados em agrupamento espectral bem trabalham em alta dimensão. A
limitação este algoritmo está em definir uma boa matriz de proximidade, porque
duas instâncias podem estarem próximas mas podem pertencer a subespaços
distintos ou próximas a ocorrência de uma sobreposição de subespaços. Por
outro lado, dois pontos podem estar distantes, mas estarem no mesmo subespaço.
Consequentemente, usar as populares medidas de distâncias nesse caso é
inadequado.
36
visualizações dos dados, porque uma instância pode ser anômala ou não dependendo
do subespaço analisado. Em contraste uma única projeção aleatória, na análise de
agrupamento em subespaço detecta-se grupos em qualquer combinação possı́vel de
atributos, [Sim et al. (2012)].
37
generalização de PCA - GPCA, [Croux (2007)].
A eficiência do PCA para a detecção de anomalias depende essencialmente da
escolha de um estimador para a matriz de variâncias e covariâncias que não sejam
sensı́veis a presença de anomalias nos dados. Uma proposta é o estimador de Mı́nima
Variância Generalizada (MGV) que busca por um centro robusto na nuvem de pontos.
É uma leve modificação da busca de projeção, [Hubert (2010)]; Finch et al. (2011)].
As instâncias podem ser classificadas como anômalas, de acordo com a estatı́stica
de teste baseada no MGV que é dada por,
V = M d + sqrt(χ2p,1− 1 )(q3 − q1 ),
α
38
Figura 3.3: Projeções em subespaços. Adaptado de Kriegel, Kröger e Zimek (2009)
39
3.7 Escores anômalos
Nesta seção são apresentados alguns conceitos a respeito de escores anômalos.
Existem duas possı́veis saı́das para um algoritmos de detecção de anomalias: um
escore que indica o grau de anormalidade de uma instância, ou um escore binário
que rotula as saı́das como anormal ou não, [Amer (2011)].
40
Unificar escores anômalos
A razão pelo qual se realiza um reescalonamento de escores anômalos é com
o objetivo de obter um significante contraste entre os escores das instâncias de
referência e os escores das anomalias, de modo que facilite a identificação de instância
anômala. Considera-se a ideia da definição dada por Hawkins (1980) para uma
anomalia, ver Seção 1.1.
Busca-se por uma estrutura geral para a regularização e a normalização de um
escore anômalo, nas quais ambas podem ser usadas para aumentar o contraste entre
os escores das instâncias de referência e os escores das anomalias.
Seja S(o) o escore anômalo regular da instância o. O processo de escore unificado,
nas quais podem ser opcionais dependendo dos escores S é formado por dois passos,
descrito a seguir:
Transformação linear
A diferença entre o valor observado S(o) e o valor de baseS resulta na trans-
formação de valores variando de [baseS , ∞) para [0, ∞),
Inversão linear
Pressupondo que os escores anômalos seguem uma distribuição Gaussiana tem-
se que os escores das instâncias de referência estão localizados em regiões de alta
densidade de pontos, e os escores das anomalias estão localizados em regiões de baixa
densidade de pontos, [Kriegel et al. (2011)].
Para regularização de tais escores é necessário realizar uma transformação inversa.
Neste caso, realiza-se a diferença entre o escore observado S(o) e o escore máximo
possı́vel Smax .
41
Normalização
A diferença entre o valor observado de S(o) e o mı́nimo de S(o) dividido pela
diferença entre o máximo de S(o) e o mı́nimo de S(o) é uma formação linear
simples que transformar valores númericos para o intervalo de valores entre [0:1].
Formalmente,
S(o) − S(o)min
N ormlinear
S := (3.8)
S(o)max − S(o)min
As três transformações lineares apresentadas acima, não são adequadas para
escores anômalos que apresentam muito baixo contraste, de modo que não aumentam
significativamente o contraste entre os escores das instâncias de referência e os escores
das anomalias. A seguir é apresentada, um exemplo, de uma transformação que
aumenta esse contraste.
Transformar os escores anômalos obtidos de múltiplos algoritmos de detecção de
anomalias para o intervalo de valores entre [0:1] não fornece um sentido unificado
desses escores, porque cada modelo para a detecção de anomalias é especı́fico. No en-
tanto, o nı́vel de unificação gerados pelas transformações melhoram a comparabilidade
das decisões dos diferentes abordagens, [Kriegel et al. (2011)].
Função logaritı́mica
A função logaritı́mica é monotona. A função é dada por,
S(o)
RegSloginv (o) := −log( ) (3.9)
Smax
42
Pode-se admitir que as transformações lineares apresentadas na Seção 3.7.1
pressupõem que os escores anômalos seguem uma distribuição uniforme. Mas a fim
de evitar superajuste é recomendado o uso de uma função distribuição primitiva
com limitado grau de liberdade. Destaca-se que a pressuposição é com respeito a
distribuição dos escores, e não com relação a distribuição do conjunto de dados, na
qual não se admite-se nada a respeito de sua distribuição.
Segundo Kriegel et al. (2011) qualquer função de distribuição pode ser utilizada
para este fim dependendo da qualidade do ajuste dos escores anômalos a prosposta
distribuição. Neste artigo é mostrado experimentalmente que a seleção arbitrária de
uma distribuição já oferece um desempenho melhorado significativo.
Por exemplo a distribuição Cauchy e a distribuição F são boas opções para as
funções escores que constituem de uma proporção obtidos dos algoritmos LOF e
LDOF.
S(o) − µs
N ormgauss
S (o) := max{0, erf ( √ )} (3.10)
σs 2
em que µS é a média, e σS é o desvio padrão dos escores anômalos S.
A função de erro Gaussiano é monotona, e sua classificação é instável.
Z x
2 2
erf (x) = √ −t dt (3.11)
π 0
1 S(o) − µs
cdfSgauss (o) := (1 + erf ( √ )). (3.12)
2 σs 2
43
da Gama. Vale destacar que a Distribuição Gama é um modelo complexo, ou
seja podemos obter demais distribuições de probabilidade a partir dela dependendo
dos valores de seus parâmetros, por exemplo podemos obter a distribuição χ2 e a
distribuição exponencial a partir dela. A normalização é dada por,
44
Considere uma distribuição Gaussiana com matriz de variâncias e covariâncias Σi
que pode ser expressa como uma função linear, Σi = Afi + B. De tal forma que,
1
pi = P (O/fi ) = (3.17)
1 + exp(−Afi − B)
(
1, oi ∈ O
ti := (3.18)
0, cc
45
à escassa quantidade de medidas disponı́veis para descrever a correlação entre os
métodos.
As medidas de similaridade de postos, por exemplo coeficiente de correlação de
Spearman, ρ e o τ de Kendall, γ de Kruskal’s que é uma versão alterada do τ de
Kendall para observações com empates. Essas medidas de correlação assumem que
as classificações são igualmente significantes.
Considerar a taxa de verdadeiros positivos para o intervalo de valores de escores
superiores, ou seja, o topo k é uma tarefa ingenua por causa da natureza desbalanceada
do problema. Uma proposta é comparar dois vetores de escores anômalos usando
de uma função de distância, por exemplo usar uma adequada função de distância
ponderada. No entanto não é claro como se pondera adequadamente a relação de
ordem em problemas desbalanceados. Além disso a seleção da função de distância
depende do problema proposto, [Schubert et al. (2012)].
Quando se atribuı́ pesos a uma medida, seja ela, a uma função de distância, ou a
custos lineares, ou a erros quadráticos, ou a medidas de correlação. Podemos então
trabalhar com dados desbalanceados.
Duas condições básicas para um ensemble, de modo que melhore o desempenho
de classificadores básicos considerados são: (i) precisão, na qual se espera que seja
melhor do que a dos aleatórios, e (ii) diversificação, ou seja, seja capaz de fazer erros
diferentes em novas instâncias.
A contribuição da teoria ensemble não é significativamente útil em casos em que
vários classificadores individuais não são distintos. Por outro lado, se os classificadores
produzem erros descorrelacionados, mais classificadores individuais são adequados
enquanto poucos classificadores individuais são inadequados.
Cada membro do ensemble deverá ser individualmente significante em algum
sentido de modo que se consiga resultados significantes se não estiver em uma
estrutura ensemble. Por essa razão é importante na construção de um ensemble
considerar membros ensemble que resultem em erros descorrelacionados. Por exemplo,
se analisar um ensemble de diversos LOF executados com diferentes k pode-se obter
um conjunto insatisfatório se os resultados são altamente correlacionados. Por outro
lado, a abordagem Feature Bagging conduz resultados bem descorrelacionados.
Na próxima seção será apresentado um exemplo de um escore para conjuntos de
dados mistos, o escore ODMAD.
46
M AXLEN
X 1
Escore(oi ) = (3.20)
sup(IF (oi )) ∗ |IF (oi )|
|IF (oi )|=1
1 X
Escore(oi ) = COS(oN
i , µa ) (3.21)
|a ∈ oC
i | C ∀a∈oi
mN
X 1 µ
COS(oN
i , µa ) =
∗ aj (3.22)
N
o
µa
j=1 ij
m
X sup(oij )
EscoreC (oi ) = (3.23)
j=1
|D|
hµoiN , oN i
EscoreN (oi ) = (3.24)
kµoiN k ∗ koN k
em que escoreN (oi ) = COSN (oi ), µoiN é um vetor de médias de todos os atributos
numéricos, e oiN são todos os valores assumidos pela i-ésima instância referentes aos
atributos numéricos.
O fator MAOF é dado por,
47
Capı́tulo 4
Experimentos Preliminares
48
Tabela 4.1: Caracterı́sticas dos conjuntos de dados utilizados
Dados Na Bb Cc M d CLe Distribuição das CL (%)
Câncer de mama 699 09 02 34.48 / 65.52
Spam 4601 57 02 39.40/60.59
Musk 476 166 02 42.99 / 57.00
Promotergene 106 57 02 50.00 / 50.00
Ionosfera 351 02 32 02 35.90/ 64.10
Linfografia 148 09 09 01 04 1/55/41/3
a
Quantidade de instâncias
b
Quantidade de atributos binário
c
Quantidade de atributos categórico
d
Quantidade de atributos numérico
e
Quantidade de classes
49
inseridas esteve entre 54% a 100% de um total de 39 instâncias, as predições corretas
variaram de 95% a 90%, e as acurácias obtidas foram de 96.5% a 90%, respectivamente,
ver Tabela 4.6.
O agrupamento de modelos Gaussianos robusto foi capaz de identificar todos os
casos malignos inseridos em cada iteração, e à sua acurácia variou entre 90% a 93%.
No entanto, uma limitação desse algoritmo é que apresenta uma alta taxa de falsos
positivos, ou seja, indica muito mais instâncias anômalas do que realmente estão
presentes na base de dados, ver Tabela 4.7.
A Figura 4.1 apresenta a eficiência dos três métodos utilizados para a base de
dados de Câncer de Mama Wisconsin desbalanceada com 39 casos malignos e 444
casos benignos. A estimativa do kernels dos dados foi analisada, nesta análise nota-se
que a formação de dois grupos, tendo poucos pontos de distintas classes misturadas.
Figura 4.1: Gráfico da Curva ROC referente aos modelos DBSCAN, K medoids,
Robusto EM para os dados mama. Projeção do conjunto de dados de Câncer de
Mama Wisconsin em kernel de dois componentes principais usando um kernel de
função de base radial Gaussiana.
50
inseridas de um total de 1813 instâncias. Nos casos de porcentagens de 97% e 100%
em ambos os casos obteve 72% de identificações corretas com respeito a presença de
anomalias, ver Tabela 4.6. O agrupamento de modelos Gaussianos robusto apresentou
um alto custo computacional, o que inviabilizou à sua aplicação em todas as análises.
Considerou-se uma amostra de 4000 instâncias para a construção do kernel
dos dados. Nesta análise observou que poucos pontos estão dispersos da forma
caracterı́stica desse kernel, ver Figura 4.2 .
Figura 4.2: Gráfico da Curva ROC referente aos modelos DBSCAN, K medóides,
Robusto EM para os dados Spam.Projeção dos dados spam em kernel de dois
componentes principais usando um kernel função de base radial.
51
A eficiência dos três algoritmos utilizados neste estudo, para o caso de um sexto
do total das anomalias inseridas na base de dados, ver Figura 4.3.
Figura 4.3: Gráfico da Curva ROC referente aos modelos DBSCAN, K medoids,
Robusto EM para os dados Musk.
52
Figura 4.4: Gráfico da Curva ROC referente aos modelos DBSCAN, K medoids,
Robusto EM para os dados Promotergene. Projeção dos dados Promotergene em
duas caracterı́sticas usando kernel da função de base radial Gaussiana
53
para a análise que a estimativa dada para o número mı́nimo de elementos por grupo
é menor ou bem próxima a quantidade de anomalias inseridas na base de dados. No
entanto, nas análises em que considerou-se estimativas maiores para esse parâmetro,
o seu poder preditivo cai em média 22% . O modelo de mistura também apresentou
um bom desempenho, o mesmo não pode ser dito do algoritmo K medoides, tendo o
pior desempenho deste estudo, ver Figura 4.5 e Tabela 4.3.
Figura 4.5: Gráfico da Curva ROC referente aos resultados obtidos dos algoritmos:
DBSCAN, K medóides, Modelo de mistura para dos dados Ionosfera.
54
somando um total de 95.9% casos de referência. Os casos raros encontram-se nas
classes: normal com 2 (1.4%) instâncias e fibrose com 4 (2.7%) instâncias, somando
um total de 4.1% de anomalias.
O kernel dos dados Linfografia apresenta uma forma linear e a formação de dois
grupos bem separados, a menos de algumas classificações equivocadas, Figura 4.6. A
acurácia obtida do algoritmo k-medoides é 0.6409, e referente ao DBSCAN foi 0.50.
Foi reproduzido o planejamento de experimento de He et al. (2003). Aleatori-
amente quatro instâncias anômalas foram inseridas na base de dados inicialmente.
Na primeira análise o algoritmo DBSCAN foi capaz de identificar com precisão as
amostras anômalas de cada classe, assim como foi identificado nas demais análises
realizadas, apesar de seu poder preditivo ter reduzido de 63% para 0.50% para
estimativas de número mı́nimo de pontos por grupo superiores a 15. O algoritmo K
medoides apresentou um desempenho insatisfatório nas duas análises realizadas, e o
modelo de mistura não trabalha com atributos binários.
Figura 4.6: Gráfico da curva ROC referente aos resultados obtidos dos algoritmos:
DBSCAN, K medóides. Projeção dos dados Linfografia em duas caracterı́sticas
usando kernel da função de base radial Gaussiana.
55
4.8 Resultados dos experimentos preliminares
Nesta Seção são apresentadas as tabelas com resultados obtidos dos experimentos
realizados baseados no planejamento feito por Harkins et al. (2002) em quatro
conjuntos de dados: Câncer de mama, Spam, Musk, e Ionosfera. Neste estudo, foram
aplicados algoritmos de agrupamentos de dados para detectar anormalidade nos
dados.
56
Tabela 4.7: Número de Anomalias Preditas pelo Modelo de Mistura Robusto
(Acurácia)
% de malignos Câncer de mama Musk Ionosfera
10 3 (0.915) 14 (0.45) 2 (0.91)
18 7 (0.93) 14 (0.49) 4(0.90)
36 14 (0.91) 35 (0.57) 8 (0.92)
54 21 (0.927 ) 43 (0.65) 11 (0.90)
69 26 (0.91) 56 (0.67) 14 (0.91)
82 31 (0.928) 73 (0.64) 16 (0.89)
90 35 (0.92) 81 (0.65) 18 (0.88)
97 37 (0.928) 78 (0.68) 19 (0.89)
100 39 (0.90) 86 (0.66) 19 (0.88)
acurácia nem sempre é representativa, porque o algoritmo pode ter bem classificado
as anomalias com baixa taxa de falsos positivos e apresentar uma baixa acurácia
devido não ter bem classificado os dados de referência, ou vice versa. Os experi-
mentos realizados foram úteis para identicar como diferentes tipos de atributos, a
forma de agrupamento dos pontos e as estimativas dadas para os parâmetros dos
algoritmos influenciam a capacidade de preditiva dos métodos abordados. A seguir
são mostradas as Tabelas com os resultados das análises de quatro dos conjuntos de
dados investigados.
57
Capı́tulo 5
Projeto de Pesquisa
1) Construção do modelo
58
2) Comparação de modelo
59
5.2 Atividades e Cronograma
As atividades relacionadas neste doutorado tiveram inı́cio em março de 2014.
Desde então, foram cursadas as disciplinas exigidas pelo programa de pós-graduação
do ICMC e foram realizadas diversas pesquisas bibliográfica até que se encontra-se
uma classe de métodos que atendessem os objetivos desta pesquisa. A seguir, essas
atividades, conjuntamente com o cronograma para as próximas atividades vinculadas
ao perı́odo de doutoramento, serão descritas.
Tese. Redigir o texto para a defesa da tese que será apresentada a uma comissão
examinadora.
60
Tabela 5.1: Cronograma de atividades do doutorado
Pesquisa Bibliográfica
Disciplinas
Coleta dos Dados
Qualificação
Pesquisa no Exterior
Desenvolvimento e Implementação
Realização dos experimentos
Artigos
Tese
61
Referências Bibliográficas
[1] Achtert, E., Böhm, C., Kriegel, H. P., Kröger, P., e Zimek, A. (2006). Deriving
quantitative models for correlation clusters. In Proceedings of the 12th ACM
SIGKDD international conference on Knowledge discovery and data mining,
4-13. ACM.
[2] Aggarwal, C. C., e Philip, S. Y. (2005). An effective and efficient algorithm for
highdimensional outlier detection. The VLDB Journal, 14, 211–221.
[4] Bennett, K. P., Fayyad, U., e Geiger, D. (1999). Density-based indexing for
approximate nearest-neighbor queries. In Proceedings of the fifth ACM SIGKDD
international conference on Knowledge discovery and data mining (pp. 233-243).
ACM.
[9] Filippone, M., Camastra, F. Masulli, F., Rovetta, S. (2007). A survey of kernel
and spectral methods for clustering. Pattern Recognition. Vol. 41 (1), 176–190.
62
[11] Gao, J., e Tan, P. N. (2006). Converting output scores from outlier detection
algorithms into probability estimates. In Data Mining, 2006. ICDM’06. Sixth
International Conference on (pp. 212-221). IEEE.
[12] Gionis, A., Mannila, H., Tsaparas, P. (2005). Clustering aggregation. 21st
International Conference on Data Engineering (ICDE 2005).
[14] Harkins, S., He, H. X., Willams, G. J., Baxter, R. A. (2002). Outlier detec-
tion using replicator neural networks. InProceedings of the 4th international
conference on data warehousing and knowledge discovery, France(pp. 170–180).
[15] He, Z. Y., Deng, S. C., Xu, X. F. (2005). An optimization model for outlier
detection in categorical data. In Advances in intelligent computing, international
conference on intelligent computing, ICIC(1), Hefei, China (pp. 400–409).
[16] He, Z., Deng, S., e Xu, X. (2005). A unified subspace outlier ensemble framework
for outlier detection. In Advances in Web-Age Information Management (pp.
632-637). Springer Berlin Heidelberg.
[18] Jiang, F., Sui, Y, e Cao, C., (2009). Some issues about outlier detection in rough
set theory. Expert Systems with Applications, 36 4680–4687.
[19] Jing, L., Ng,M.K., Andhuang, J. Z. 2007. An entropy weighting k-means al-
gorithm for subspace clustering of high-dimensional sparse data.IEEE Trans.
Knowl. Data Eng. 19, 8, 1026– 1041.
[20] Kriegel, H., Kroger, P., Schubert, E., e Zimek, A. (2012). Outlier detection in
arbitrarily oriented subspaces. In Data Mining (ICDM), IEEE 12th International
Conference on (pp. 379-388). IEEE.
[21] Kriegel, H., Kroger, P., Schubert, E., e Zimek, A. (2011). Interpreting and
unifying outlier scores. In 11th SIAM International Conference on Data Mining
(SDM), Mesa, AZ (Vol. 42).
[22] Kriegel, H. P., Kröger, P., Schubert, E., e Zimek, A. (2009). Outlier detection
in axis-parallel subspaces of high dimensional data. In Advances in Knowledge
Discovery and Data Mining (pp. 831-838). Springer Berlin Heidelberg.
63
[24] Kriegel, H. P., e Zimek, A. (2010). Subspace clustering, ensemble clustering,
alternative clustering, multiview clustering: what can we learn from each other?
Proceedings of MultiClustKDD.
[25] Kulis, B., Sustik, M.A., Dhillon, I.S. (2009b). Low-rank kernel learning with
bregman matrix divergences. Journal of Machine Learning Research, Vol. 10,
341–376.
[26] Lakhina, A., Crovella, M., e Diot, C. (2005). Mining anomalies using traffic
feature distributions. In ACM SIGCOMM Computer Communication Review
(Vol. 35, No. 4, pp. 217-228). ACM.
[27] Moise, G. , Zimek, Kroger, A., P., Kriegel, H.-P., e Sander, J. (2009). Subspace
and projected clustering: experimental evaluation and analysis, Knowledge and
Inform Syst (KAIS) 21(3) , 299–326.
[28] Müller, E. , Gunnemann, S., Assent, I., e Seidl, T. (2009). Evaluating clustering
in subspace projections of high dimensional data, In Proceedings of the 35th
International Conference on Very Large Data Bases (VLDB), Lyon, France,
2009, 1270–1281.
[30] Müller, E., Assent, I., Iglesias, P., Mulle, Y., e Bohm, K. (2012). Outlier ranking
via subspace analysis in multiple views of the data. In Data Mining (ICDM),
IEEE 12th International Conference on pp. 529-538. IEEE.
[31] Müller, E., Schiffer, M., e Seidl, T. (2011). Statistical selection of relevant
subspace projections for outlier ranking. In Data Engineering (ICDE), IEEE
27th International Conference on (pp. 434-445). IEEE.
[32] Pichara, K., e Soto, A. (2011). Active learning and subspace clustering for
anomaly detection. Intelligent Data Analysis, 15(2), 151-171.
[33] Wei, L., Qian, W., Zhou, A., Jin, W., e Jeffrey, X. Y. (2003). Hot: hypergraph-
based outlier test for categorical data. In Advances in Knowledge Discovery and
Data Mining, 399-410. Springer Berlin Heidelberg.
[34] Willams, G. J., Baxter, R. A., He, H. X., Harkins, S., Gu, L. F. (2002).
A comparative study of RNN for outlier detection in data mining. InICDM,
Japan(pp. 709–712).
[35] Schubert, E., Zimek, A., e Kriegel, H. P. (2014). Local outlier detection re-
considered: a generalized view on locality with applications to spatial, video,
and network outlier detection. Data Mining and Knowledge Discovery, 28(1),
190-237.
64
[36] Schubert, E., Wojdanowski, R., Zimek, A., e Kriegel, H. P. (2012). On evalu-
ation of outlier rankings and outlier scores, In Proceedings of the 12th SIAM
International Conference on Data Mining (SDM), Anaheim, CA, 1047–1058.
[37] Schubert, E., Zimek, A., e Kriegel, H. P. (2015). Fast and Scalable Outlier
Detection with Approximate Nearest Neighbor Ensembles. In Database Systems
for Advanced Applications (pp. 19-36). Springer International Publishing.
[38] Sim, K., Gopalkrishnan, V., Zimek, A., e Cong, G. (2013). A survey on enhanced
subspace clustering. Data mining and knowledge discovery, 26(2), 332-397.
[41] Ye, M., Li, X., e Orlowska, M. E. (2009). Projected outlier detection in high-
dimensional mixed-attributes data set. Expert Systems with Applications, 36(3),
7104-7113.
[42] Yu, K., Dang, X., Bart Jr, H. e Chen, Y. (2015). Robust model based learning via
spatial-EM algorithm. IEEE Transactions on Knowledge and Data Engineering,
27(6), 1670-1682.
[44] Zhang, W. e Kosecka, J. (2006). Ensemble method for robust motion estimation.
In 25 years of RANSAC workshop, CVPR.
[46] Zimek, A. (2009). Correlation clustering, ACM SIGKDD Explor 11(1) , 53–54.
65