Técnicas Não Supervisionadas para A Deteccão de Anomalias em Conjuntos de Dados Mistos

Técnicas Não Supervisionadas para a
Detecção de Anomalias em Conjuntos de

Dados Mistos
Kelly Cristina Ramos da Silva

SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP
Data de Depósito:
Assinatura:
Técnicas Não Supervisionadas para a Detecção de

Anomalias em Conjuntos de Dados Mistos
Monografia apresentada ao Instituto de Ciências Ma-

temáticas e de Computação – ICMC – USP, para o
Exame de Qualificação, como parte dos requisitos para
obtenção do tı́tulo de Doutor em Ciências de Computação
e Matemática Computacional. Área de Concentração:
Ciências de Computação e Matemática Computacional.
Orientador: Prof. Dr. André Carlos Ponce de Leon Ferreira de Carvalho
USP - São Carlos

Agosto de 2015
Unsupervised Techniques for Anomaly Detection in

Mixed Data Sets
Paper presented to the Institute of Mathematics and

Computer Sciences - ICMC - USP, for Qualifying Exami-
nation as part of the requirements for obtaining a doc-
torate in Computer Science and Computational Mathe-
matics. Concentration Area: Computer Science and
Computational Mathematics.
Orientador: Prof. Dr. André Carlos Ponce de Leon Ferreira de Carvalho
USP - São Carlos

August 2015
2
Sumário
1 Detecção de Anomalia 2
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 A Natureza do Conjunto de Dados . . . . . . . . . . . . . . . 5
1.2 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Limitações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1 Especı́fico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Estrutura do texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7 Sı́ntese do capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Revisão Bibliográfica sobre Detecção de Anomalias 13

2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Métodos baseados em proximidade . . . . . . . . . . . . . . . . . . . 14
2.3 Métodos estatı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Métodos baseados em análise de agrupamento . . . . . . . . . . . . . 16
2.4.1 Métodos hierárquico . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2 Métodos particionado . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.3 Agrupamento probabilı́stico . . . . . . . . . . . . . . . . . . . 21
3 Métodos para Detecção de Anomalias 24

3.1 Deteção de anomalias local . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Detecção de anomalias em conjuntos de dados mistos . . . . . . . . . 28
3.3 Análise de agrupamento em alta dimensão . . . . . . . . . . . . . . . 29
3.4 Deteção de anomalias em subespaços . . . . . . . . . . . . . . . . . . 31
3.4.1 Definição de subespaço . . . . . . . . . . . . . . . . . . . . . . 33
3.4.2 Algoritmos de análise de agrupamento em subespaço . . . . . 35
3.5 Detecção de anomalias baseada em técnica de projeção . . . . . . . . 36
3.5.1 Análise de componentes principais . . . . . . . . . . . . . . . . 37
3.6 Detecção de anomalias em agrupamento de atributos correlacionados 38
3.7 Escores anômalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.7.1 Regularização e normalização e interpretação de escores anômalos 40
3.7.2 Propostas de Regularizações para diferentes tipos de escores . 42
3.7.3 Transformação de escore anômalo em probabilidade . . . . . . 44
3.7.4 Abordagens Anomalias Ensemble . . . . . . . . . . . . . . . . 45
3
3.7.5 Escore ODMAD . . . . . . . . . . . . . . . . . . . . . . . . . 46
4 Experimentos Preliminares 48
4.1 Conjuntos de Dados Analisados . . . . . . . . . . . . . . . . . . . . . 48
4.2 Análise do conjunto de dados de Câncer de Mama Wisconsin . . . . . 49
4.3 Análise do conjunto de dados de Spam . . . . . . . . . . . . . . . . . 50
4.4 Análise do conjunto de dados de Musk . . . . . . . . . . . . . . . . . 51
4.5 Análise do conjunto de dados Promotergene . . . . . . . . . . . . . . 52
4.6 Análise do conjunto de dados de Ionosfera . . . . . . . . . . . . . . . 53
4.7 Conjunto de dados de Linfografia . . . . . . . . . . . . . . . . . . . . 54
4.8 Resultados dos experimentos preliminares . . . . . . . . . . . . . . . 56
5 Projeto de Pesquisa 58
5.1 Abordagens Propostas . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.2 Atividades e Cronograma . . . . . . . . . . . . . . . . . . . . . . . . . 60
4
Lista de Tabelas
3.1 Relevantes caracterı́sticas dos algoritmos de análise de agrupamento

em espaços de altas dimensões. Adaptada de Sim et al. (2013). . . . . 31
4.1 Caracterı́sticas dos conjuntos de dados utilizados . . . . . . . . . . . . 49

4.2 Resultos referente ao conjunto de dados Promotergene . . . . . . . . 52
4.3 Resultos referentes ao conjunto de dados Ionosfera . . . . . . . . . . . 54
4.4 Resultos para o conjunto de dados Linfografia . . . . . . . . . . . . . 55
4.5 Número de Anomalias Preditas pelo Algoritmo DBSCAN (Acurácia) 56
4.6 Número de Anomalias Preditas pelo Algoritmo K medóides (Acurácia) 56
4.7 Número de Anomalias Preditas pelo Modelo de Mistura Robusto
(Acurácia) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.1 Cronograma de atividades do doutorado . . . . . . . . . . . . . . . . 61
5
Lista de Figuras
1.1 Gráfico de dispersão com anomalias. Conceitos obtidos de Chen et al.

(2012). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Métodos em grafos para detecção de anomalias. Adaptado de Chen et
al. (2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Árvore de métodos classificados pelo tipo de conjunto de dado. Adap-
tado de Zhang et al. (2007). . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Aspectos do processo de deteção de anomalias. Adaptado de Zhang
et al. (2007) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1 Métodos para análise de agrupamento de dados tradicional e não

tradicional. Adaptado de Sim et al. (2013) . . . . . . . . . . . . . . . 17
3.1 Esquema de deteção de anomalias local. Adaptado de Schubert et al.

(2014) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 Ilustração de subespaços em 3D. Adaptado de Sim et al. (2013) . . . 31
3.3 Projeções em subespaços. Adaptado de Kriegel, Kröger e Zimek (2009) 39
3.4 A ideia geral de como identificar anomalias em subespaços de atributos
originais por meio de um subespaço ortogonal. Adaptado de Kriegel
et al. (2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1 Gráfico da Curva ROC referente aos modelos DBSCAN, K medoids,

Robusto EM para os dados mama. Projeção do conjunto de dados de
Câncer de Mama Wisconsin em kernel de dois componentes principais
usando um kernel de função de base radial Gaussiana. . . . . . . . . 50
4.2 Gráfico da Curva ROC referente aos modelos DBSCAN, K medóides,
Robusto EM para os dados Spam.Projeção dos dados spam em kernel
de dois componentes principais usando um kernel função de base radial. 51
Robusto EM para os dados Musk. . . . . . . . . . . . . . . . . . . . . 52
Robusto EM para os dados Promotergene. Projeção dos dados Pro-
motergene em duas caracterı́sticas usando kernel da função de base
radial Gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.5 Gráfico da Curva ROC referente aos resultados obtidos dos algoritmos:
DBSCAN, K medóides, Modelo de mistura para dos dados Ionosfera. 54
4.6 Gráfico da curva ROC referente aos resultados obtidos dos algoritmos:
DBSCAN, K medóides. Projeção dos dados Linfografia em duas
caracterı́sticas usando kernel da função de base radial Gaussiana. . . 55
6
Resumo
O conceito de anomalia surgiu de diversas situações reais de suspeitas de alarmes,

como em falhas de sensores, em aparecimento de novos fenômenos astronômicos, em
falhas em instrumentos, no aparecimento de células cancerosas em tecidos normais,
e em uma grande variabilidade no tráfico da rede de computadores. A detecção
de anomalias não é um processo único. A seleção de uma abordagem para esse
processo depende do domı́nio de aplicação, da natureza dos dados, e do tipo de
anomalia. Em resumo, o processo de detecção de anomalia é basedo em distintas
suposições, intuições e modelos. Assim, um adequado conhecimento em relação as
abordagens existentes é altamente essencial quando se deseja selecionar um método
para um domı́nio especı́fico, [Gogoi et al 2011]. Não existe usualmente uma distinção
clara entre uma anomalia e uma instância de referência. Uma instância pode ser
desviante em um subconjunto de atributos, e regular em outro. Pressupõem-se
que um conjunto de dados misto é gerado por distintos mecanismos, então um
conjunto de referência local deve ser considerado ao invés do conjunto de dados
completo ao se comparar uma instância a um conjunto de referência. Os métodos
tradicionais usualmente identificam anomalias no espaço de atributos completo, isto é,
apenas uma visualização, e realizam comparações entre instâncias e grupos de pontos
considerando o conjunto de dados completo, [Müller et al. (2012)]. No entanto, os
subconjuntos de atributos podem ser relevantes para diferentes agrupamentos, em
diferentes subespaço. Desta forma o objetivo deste projeto é pesquisar e desenvolver
em análise de agrupamento em subespaços em que pode-se selecionar um algoritmo
para cada subespaço, e a anomalia será avaliada de acordo com à sua vizinhança
local, ou seja, o foco da pesquisa será em detectar anomalias locais em subespaços. A
flexibilidade do agrupamento em subespaços é muito útil em aplicações de dados reais,
desde que diferentes subespaços modo tem diferentes tipos de atributos e diferentes
distribuições, além disso a utilização de tais métodos viabiliza a identificação e
interpretação de anômalas em uma ampla quantidade de tipos de dados. O problema
de agrupamento em subespaço ainda não ser suficientemente bem definido e a
avaliação dessa abordagem é um problema em aberto e desafiador. Pressupõem-se
que essa técnica é intimamente relacionada com a teoria ensemble, pelo fato de ambas
envolverem a conciliação de diversas performances de técnicas e/ou planejamentos.
Por fim, tem-se que a revisão da literatura buscou identificar as principais lacunas
presentes neste processo. Nos experimento foi refeito o planejamento dado por
Harkins et al (2002) para detecção de anomalias. Os algoritmos utilizados nesta
análise pertencem a três grande subáreas da análise de agrupamento baseado em
densidade, particionado, e os modelos de mistura Gaussiano. Os resultados obtidos
dos experimentos auxiliaram na compreensão dos conceitos básicos utilizados em
análise de agrupamento de dados.
Palavras-chave: processo de detecção de anomalias, análise de agrupamento de
dados não tradicional, e escores anômalos.
Resume
The anormality concept arose from several real situations suspected alarms,
such as sensor faults in appearance of new astronomical phenomena, on failure of
instruments, the appearance of cancer cells in normal tissues and a wide variability
in the network traffic computers. The anomaly detection is not a single process.
Selecting an approach to this process depends on the application domain, the nature
of the data, and the nature of the anomaly. Resume this process is based in differents
model, intuition, and suppose. Thus, an appropriate knowledge about existing
approaches is highly essential when you want to select a method for a particular
domain, [Gogoi et al 2011]. There is usually a clear distinction between an anomaly
and a reference point. An instance can be deviant in a subset of attributes, and
regular in another. Assume that a set of mixed data is generated by distinct
mechanisms so a set of local reference have been considered rather than the complete
data set by comparing an instance a set of reference. Traditional methods usually
identify anomalies in the full attributes of space, that is only a preview, and perform
comparisons between instances and point groups considering the complete data set,
[Müller et al. (2012)]. However, the attributes of subsets may be relevant to different
groups in different subspace. Thus the objective of this project is to research and
develop cluster analysis in subspaces in which you can select an algorithm for each
subspace, and the anomaly will be assessed according to their local neighborhood, ie,
the focus of research will be detect local anomalies in subspace. The flexibility of the
clustering in subspaces is very useful in the actual data of applications from different
subspaces mode has different attributes and different distributions, furthermore the
use of such methods allows for the identification and interpretation of anomalous
in a wide number of types of data. The subspace clustering problem is still not
sufficiently well defined and the evaluation of this approach is an issue open and
challenging. It presupposes that this technique is closely related to the ensemble
theory, because both involve the reconciliation of various performance techniques
and / or planning. Finally, it has to be the literature review was to identify the main
gaps present in this process. The experiment was redone planning given by Harkins
et al (2002) to detect anomalies. The algorithms used in this analysis fall into three
major subareas of clustering based density , partitioned, and the Gaussian mixture
models. The results of the experiments helped in understanding the basic concepts
used in data clustering.
Keywords: anomalies detection process, data cluster analysis no traditional, and
anomalous scores.
Capı́tulo 1
Detecção de Anomalia
Neste capı́tulo é apresentado uma visão geral do tema - Detecção de Anomalias.

Algumas das definições dadas para uma anomalias, e além dos cenários em que
frequentemente esse processo é realizado. O conteúdo desse capı́tulo está organizado
nas seguintes seções: a Seção 1.1 são dadas algumas definições de anomalia, e do
processo de detecção de anomalia; na Seção 1.2 são dadas algumas justificativas para
o desenvolvimento desta pesquisa; na Seção 1.4 são descritas algumas das principais
limitações referentes ao tema e os métodos a serem pesquisados; nas Seções 1.3 e 1.5
é apresentado o que pretende demonstrar e os interesses a serem alcançados ao final
desta pesquisa, respectivamente.
1.1 Introdução
A ideia principal da detecção de anomalia surgiu de situações reais de suspeitas
de alarmes. Presentes, por exemplo, em ataques cibernéticos, em falhas de sensores,
em aparecimento de novos fenômenos astronômicos, em falhas em instrumentos, no
aparecimento de células cancerosas em tecidos normais, e em uma grande variabilidade
no tráfico da rede de computadores.
A presença de uma ou mais anomalias em uma base de dados pode ser justificada
segundo duas hipóteses. A primeira hipótese é que a presença de uma anomalia pode
ocorrer por causa de erros humanos, erros de instrumentação, falhas mecânicas ou
alterações ambientais, também denominada como um ruı́do. Nesse caso tais dados
devem ser removidos do conjunto de dados para que não comprometam a qualidade
das inferências. A segunda hipótese é que tal anormalidade presente no conjunto
de dados traduza a informações importantes. Portanto, vale a pena ser investigada
supondo a priori que à sua ocorrência é rara.
Para a separação entre ruı́do e novo evento são considerados diferentes fatores,
como a natureza dos dados, a disponibilidade de dados rotulados, os tipos de
anomalias a serem detectadas, entre outros fatores, [Chandola et al. (2009); Pimentel
et al. (2014)].
Não existe uma definição universal aceitável para o processo de detecção de
anomalias (em inglês outliers detection). Tal processo é referido na literatura tanto
como a identificação de eventos de interesse como a identificação de ruı́dos.
2
Uma definição popular para uma anomalia foi dada por Hawkins (1980), descrita
como segue.
”Uma anomalia é uma observação que se desvia significativamente das de-
mais observações do conjunto de dados e que supostamente foi gerada por
um mecanismo diferente do que gerou as demais observações estudadas”.
No entanto, vale ressaltar que o sentido de uma anomalia difere-se dependendo
da aplicação em questão. Por exemplo, em dados de saúde pública, um pequeno
desvio do normal do comportamento do corpo do Homem pode indicar a presença
de uma anomalia. Enquanto, que um pequeno desvio no mercado financeiro pode
ser considerado normal. Além disso, uma anomalia pode ser visualizada segundo a
significância dos subconjuntos de atributos em uma dada aplicação.
A classificação de comportamentos não usuais nos dados não é trivial. Uma das
técnicas para detecção de anomalias poderosa e geral são os métodos baseados em
grafos, que tratam a anomalia em tipos de conjuntos de dados com atributos mistos,
em conjuntos de dados espaciais, e em dados streaming, [Zhang et al.(2007)]. Nesse
cenário, a deteção de anomalias pode ser analisada considerando duas perspectivas: a
anomalias do ”corvo branco”(em inglês, “white crow”) e a anomalia ”em disfarce”(em
inglês, “in-disguise”). A definição de uma anomalia ”corvo branco”é similar a
definição dada por Hawkins (1980), e uma anomalia ”em disfarce”é uma instância
que apresenta um pequeno desvio do padrão normal [ van der Eems et al (2014);
Eberle e Detentor, (2007)]. Ambos os tipos de anomalias são ilustradas na Figura
1.1.
Dados Contaminados
7
Atributo 2
5
Normal
Corvo branco
Em disfarce
1 2 3 4 5 6 7
Atributo 1
Figura 1.1: Gráfico de dispersão com anomalias. Conceitos obtidos de Chen et al.
(2012).
Um exemplo de anomalia do ”corvo branco”pode ser visto, no caso quando temos

um atributo que corresponde a idade do Homem com um intervalo de variação de
zero e cento anos, um individuo com idade de 322 anos, é um fato improvável, além
de estar fora do intervalo de variação desse atributo. Por outro lado, um exemplo de
3
uma anomalia ”em-disfarce”é a informação dada pelo escritório de nações unidas
que trata de drogas e crimes, relatou: ”a mais bem sucedida lavagem de dinheiro
ocorreu quando a imitação do padrão e do comportamento de transações do dinheiro
esteve mais próxima da legı́tima”, [Chen et al. (2012), Eberle e Holder (2007)]. A
seguir é apresentada uma árvore de tipos de anomalia e seus respectivos métodos
propostos de acordo com a teoria de grafos, ver Figura1.2.
Figura 1.2: Métodos em grafos para detecção de anomalias. Adaptado de Chen et al.
(2012)
.
Na área de Estatı́stica, uma anomalia é classificada como univariada, quando

ocorre em apenas um dos atributos de cada instância, ou multivariada, quando
ocorre em mais de um atributo de uma mesma instância. Esses conceitos não são
exclusivos, isto é, uma mesma instância pode ser anômala univariada e multivariada.
Outra forma, de itentificar anomalias é na análise de diagnóstico, em que uma
anomalia neste caso são pontos aberrantes que podem ou não viesar as estimativas
dos parâmetros de um modelo ajustado.
Na área de mineração de dados, por exemplo, uma anomalia pode ser classificada
como: anomalia pontual, anomalia contextual (ou anomalia condicional), e anomalia
coletiva. A descrição de cada uma delas é dada a seguir, [Bhuyan et al. (2014) e
Chandola et al. (2009)]
1. Pontual, quando exemplos individuais e aleatórios desviam-se significativamente

das demais observações do conjunto de dados.
2. Contextual ou condicional, observada em dados dependentes, tais como dados
espaciais e séries temporais.
3. Coletiva, quando são utilizados conjuntos de dados multidimensionais e um
subconjunto dos dados é considerado anômalo em relação ao conjunto completo
de dados.
4
A questão que um ponto próximo a um grupo é mais provavelmente uma anomalia
do que um ponto que se encontra mais distante desse grupo, também foi levantada
em Breunig et al. (2000) quando introduziu o conceito de ”anomalia local”, e
apresentou o Fator de Anomalia Local - LOF. O LOF têm uma teoria fundamentada
na conectividade da densidade dos pontos, e apresenta o grau de anormalidade para
cada instância. É um método popular e seus conceitos são frequentemente usados
como base para a construção de demais técnicas para detecção de anomalias local,
[Schubert et al. (2014)].
As abordagens não supervisionadas para a deteção de anomalias são divididas
em duas categorias: a abordagem global e a abordagem local.
1. A abordagem global realiza comparações entre os objetos considerando como
referência o conjunto de dados completo, ou seja, supõem que existe apenas
um mecanismo de geração dos dados.
2. A abordagem local realizar comparações entre os objetos seleciona um conjunto
de referência, ou seja, supõem queo conjunto de dados foi gerado por mais do
que um mecanismo. Não há suposição sobre o mecanismo de geração dos dados.
A limitação é selecionar um conjunto de referência apropriado para cada objeto
analisado.
A técnica de identificação de um ponto anômalo dado um conjunto de dados pode
considerar apenas uma análise ou diversas análises ao conjunto de dados. Algumas
das técnicas para detecção de anomalias são planejadas para identificar diferentes
quantidade de anomalias em uma única vez. Outras dessas técnicas identificam as
anomalias uma de cada por vez, de modo que o procedimento é repetido até que
todas as anomalias sejam removidas do banco de dados. Esse método é sujeito a
alta taxa de falsos negativos. Com relação as técnicas que identificam uma coleção
de anomalias de uma única vez, são ditas sofrerem de altas taxas de falsos positivos,
[Gogoi et al. (2011)].
Na próxima seção são descritos alguns dos principais tipos de dados que são
frequentemente encontrados em aplicações reais.
1.1.1 A Natureza do Conjunto de Dados

Um aspecto fundamental, a ser considerado é a natureza dos dados de entrada.
As entradas são geralmente uma coleção de instâncias. Cada instância pode ser
descrita por meio de um conjunto de atributos. Os atributos podem ser de diferentes
tipos, como binário, categórico, discreto, ou contı́nuo. Sendo que cada conjunto
de dados pode consistir em apenas um atributo, ser univariado; ou pode consistir
de múltiplos atributos, ser multivariado. No caso multivariado, todos os atributos
podem ser do mesmo tipo ou podem constituir de uma mistura de diferentes tipos.
Para melhor compreensão dos tipos de dados frequentes nas aplicações reais. Seguem
abaixo as descrições de alguns tipos de dados [Aggarwal e Subbian (2012); Ye et al.
(2009); Das (2008); Zhang et al. (2007), e Tan et al. (2006)]:
1. Dados simples é um conjunto de observações de semântica simples, que é
usualmente representado por uma base de dados de baixa dimensão contendo
atributos assumindo valores contı́nuos.
5
2. Dados complexos têm caracterı́sticas que os tornam complexos. Alguns desses
conjuntos de dados são descritos a seguir:
(a) Alta dimensionalidade são os conjuntos de dados com uma grande quanti-
dade de atributos.
(b) Escalabilidade são conjuntos de dados com grandes quantidades de ob-
servações, com tamanhos em terabytes e até petabytes.
(c) Tipo mistos são conjuntos de dados que contém tanto atributos assumindo
valores quantitativos (contı́nuos e discretos) como atributos assumindo
valores categóricos (binários e de múltiplas categorias).
(d) Sequências de observações são os conjuntos de dados que apresentam uma
sequência de entidades individuais, tais como sı́mbolos ou letras. Esses
dados não tem o mesmo comprimento e conhecida distribuição a priori.
O que dificulta a noção de padrão de similaridade estrutural entre duas
sequências.
(e) Espaciais são conjuntos de dados que contêm informações sobre a loca-
lização, a forma, a direção e outras informações geométricas ou topológicas.
Eles podem determinar vizinhança espacial em termos de relações espaciais,
como a distância ou adjacência.
(f) Streaming são conjuntos de dados com uma grande quantidade de dados
que chegam em tempo real de uma forma rápida e contı́nua, que usualmente
possui um tamanho ilimitado de instâncias, e possui escalabilidade e
dinamicidade.
(g) Espaço temporal são conjuntos de dados de fenômenos geográficos que
evoluem ao longo do tempo.
Vários tipos de dados descritos acima, podem ser expressos em forma de grafos.
Os grafos é uma forma flexı́vel e poderosa de expressar os dados. Os dados podem
ser representados como um único grande grafo, visto por exemplo nas redes de teias
sociais e de informação (em inglês web). Ou mesmo, pequenos múltiplos grafos
podem ser extraı́dos de um grande grafo, como em uma rede bibliográfica, em que
uma publicação é um pequeno grafo dentro de uma grande rede de correlacionadas
bibliografias. Em pequenos grafos, uma única instância pode ser vista como uma
anomalia, e em grandes grafos, as anomalias são definidas como partes da rede,
na qual são vértices, arestas ou subgrafos individuais classificados como anomalias
dependendo de suas conexões na rede, [Aggaward (2015)]. Na árvore abaixo são
apresentadas algumas métodos propostos para tratar particulares tipos de conjunto
de dado.
Entre as abordagens para detecção de anomalias os método não supervisionados
são reportados na literatura como os mais utilizados, sendo que a maioria deles
baseiam-se nos conceitos de análise de agrupamento de dados. Diante disso, diversos
autores buscam realizar uma ampla revisão da literatura da área no intuito de
confirmar tal hipótese, [Das (2009), Steinbach et. al. (2014), Zimek et. al. (2012)].
Maiores detalhes são apresentados na revisão bibliográfica, no Capı́tulo 2.
6
Figura 1.3: Árvore de métodos classificados pelo tipo de conjunto de dado. Adaptado
de Zhang et al. (2007).
1.2 Motivação
Anomalias são instâncias excepcionais em algum sentido. No geral, elas contém
aspectos importantes da aplicação de interesse. Por essa razão, diferentes domı́nios
de aplicação tem se mobilizado para desenvolver e aplicar as técnicas de detecção de
anomalias, entre às diferentes areas do conhecimento que utilizam de detecção de
anomalias em suas análise de dados podemos citar: o monitoramento ambiental, a
medicina e a saúde pública, a localização e o rastreamento, e a logı́stica e o transporte,
[Hodge e Austin (2004)].
A qualidade dos dados é uma questão importante que envolve vários aspectos
como precisão, perfeição, integridade, consistência, atualidade, credibilidade, inter-
pretabilidade, rastreabilidade e acessibilidade dos dados, presença de ruı́do e de
novos eventos, valores faltantes, dados duplicados, entre outros fatores, [Pipino et al.
(2006)].
O processo de detecção de anomalia enfrenta diversas dificuldades, entre elas
esta a falta de dados rotulados, porque a tarefa de rotulagem dos dados não é
uma tarefa trivial. Tal dificuldade, em alguns casos se remete tanto a presença de
grandes tamanhos de amostras como a presença erros de classificação. Por exemplo,
um especialista em radiologia está predestinado a contradizer-se em 20% das vezes
quando avalia uma radiografia de tórax e a clássica como normal ou anormal. Assim
demanda-se de mais recursos e informações adicionais para se obter classificações
mais confiáveis do Homem, assim tal processo se torna mais caro e mais demorado,
[Kahneman (2011)].
Os métodos não supervisionados para a detecção de anomalias são preferidos
pelos pesquisadores, porque eles não depende de dados classificados como normal ou
anômalo, ou amostras treinadas classificadas. Ao contrário dos métodos supervisi-
onados e semi supervisionados que necessitam de dados rotulados para treinarem
7
previamente os seus modelos [Gogoi et al. (2011)].
Em aplicações reais é usual a presença de atributos de diferentes naturezas em um
mesmo conjunto de dados, e a ocorrência de anomalias nos dados pode ser provocada
pela interação entre os atributos categóricos e os atributos numéricos, mas usualmente
os métodos utilizados para detectar anomalias trabalham com atributos numérico ou
atributos categóricos. Assim, a análise individual dos atributos é insuficiente para
detectar todas as possı́veis anomalias presentes nos dados, [Katdare e Jin (2011);
Aggarwal (2015)].
Os aspectos do processo de detecção de anomalias são apresentados na Tabela 1.4.
Foram consideradas apenas as referências para tipos de dados mistos. No entanto, os
autores apresentam uma extensa revisão com 55 referências em que a maioria delas
detecta anomalias em conjuntos de dados númericos, e poucas são as referências em
que se trata anomalias em conjuntos de dados complexos, como pode ser visto pela
quantidade de referências que tratam dados mistos a seguir. Referente a abordagem
de subespaço na qual pretende-se utilizar para dados mistos, apenas é utilizada para
conjuntos de dados númericos com alta dimensão. Em particular nenhuma dessas
referências trata anomalia em dados mistos com alta dimensão, [Zhang et al. (2007)].
Sendo uma das razões que justifica a pesquisa e o desenvolvimento de uma técnica
para análise de anomalia em dados mistos.
Figura 1.4: Aspectos do processo de deteção de anomalias. Adaptado de Zhang et al.

(2007)
.
Com os avanços da tecnologia, atualmente é possı́vel obter e analisar grandes

quantidades de dados. Apesar disso, no geral, quanto maior a quantidade de dados,
maiores são as chances de ocorrerem tanto ruı́dos como novos eventos. O problema é
que a separação entre eles não é pura, por esta razão, a distinção dependerá do estudo
em questão, e do método utilizado. [Chandola et al. (2009); Pimentel et al. (2014)].
Assim, os conceitos precisaram ser revistos e novos métodos têm sindo desenvolvidos
para dados com alta dimensão. De modo que as abordagens não supervisionadas
para a detecção de anomalias passaram a considerar a detecção em subespaços, sendo
que anteriormente apenas se considerava a detecção no espaço completo, [Zimek,
Schubert, e Kriegel (2012)].
Combinar diferentes subespaços para detectar anomalias foi proposto inicialmente
em abordagem de feature bagging. Usar diferentes subespaços foi motivado pela
melhora da qualidade da predição geral de um detector de anomalias ensemble,
8
construı́do de individuais detectores de anomalias sobre diferentes subconjuntos de
atributos selecionados aleatoriamente, [Schubert et al. (2012)].
Em subespaços não define-se anomalia com respeito a um subespaço especı́fico,
mas como resultado da combinação de múltiplos escores obtidos de diferentes algorit-
mos de detecção de anomalias aplicados a todos os subespaços de interesse. Essa
técnica pode apresentar uma significativa melhora com relação a identificação de
anomalias e interpretação da sua presença nos dados, porque se visualiza distintas
configurações dos dados, e se aplica um mais conveniente método para cada subespaço.
No entanto, os escores anômalos usualmente são muito difı́ceis de serem comparados.
Além disso, na última década, as abordagens desenvolvidas em mineração de
dados para a detecção de anomalia têm desconsiderado os conceitos estatı́sticos, e
assim focado apenas na eficiência de algoritmos e deixado de lado a interpreção
dos resultados. Por essa razão na maioria das abordagens os escores anômalos não
auxiliam no processo de decisão para classificar uma instância como anômala ou
inlier, [Schubert et al. (2012)].
1.3 Hipóteses
Supõem-se neste trabalho que o processo de detecção de anomalias é induzido por
diversos fatores, entre eles podemos citar a natureza dos dados, os tipos de anomalias,
o método selecionado para a detecção de anomalias, o cenário de uma particular
aplicação. Vale ressaltar que a maioria dos algoritmos de análise de agrupamento
tradicionais formam grupos com formas convexas. No entanto, as formas naturais
dos grupos de dados têm comumente aparências curvilı́neas, [Aggarwal e Yu (2001)].
Assim, pressupõe-se que as abordagens em subespaços são ferramentas flexı́veis
de tal forma que pode-se bem tratar distintos cenários. Justificado por suas boas
propriedades, no que se remete a viabilizar o trabalho com uma ampla variedade de
tipos de conjuntos de dados, alta dimensionalidade dos dados, sobreposição de grupos,
presença de pontos nas fronteiras dos grupos, construção de grupos com formas
arbitrárias e da distinção de anomalias e ruı́dos, além de viabilizar a interpretação da
presença de anomalias nos dados, [Chandola et al. (2009); Pimentel et al. (2014)].
1.4 Limitações
O processo de detecção de anomalias não é um problema bem formulado. A
natureza dos dados, o natureza das anomalias, as restrições e as suposições coletiva-
mente constituem a formulação do problema. As principais questões abordadas neste
processo são descritas a seguir, [Zimek et al. (2012); Gogoi et al. (2011); Muller et
al. (2009); Zhang et al. (2007)]:
1. As abordagens para detecção de anomalias, no geral, não são simples e não

são genéricas. Cada domı́nio de aplicação impõe um conjunto de requisitos e
restrições, dando origem a uma formulação problema especı́fica para detecção
de anomalia;
9
2. Muitas vezes, os dados podem conter ruı́dos e novos eventos, e um se assemelhar
ao outro, de tal forma que, os ruı́dos sejam difı́ceis de serem distinguidos e de
serem removidos do conjunto de dados;
3. Obter nı́veis satisfatório com relação a taxa de detecção de anomalias e taxa

de falsos positivos é um desafio pouco alcançado pela maioria dos métodos de
detecção de anomalias. Pelo fato de que tais algoritmos ou visitam apenas uma
vez os dados e apresentam todas as anomalias de uma única vez, e sofrem de
altas taxas de falsos positivos. Ou visitam várias vezes os dados e apresentam
uma anomalia em cada iteração, e sofrem de altas taxas de falsos negativos;
4. Usualmente ter informação a respeito da classificação dos dados para o treina-

mento e para a validação de uma técnica é uma questão relevante no processo
de detecção de anomalias, mas o custo e a confiabilidade de dados rotulados
pode ser inviável em alguns casos;
5. A deteção de anomalias em conjuntos de dados complexos não é simples, e

poucos são os métodos desenvolvidos para deteção de anomalias para conjuntos
de dados complexos se comparados aos métodos desenvolvidos para conjuntos
de dados simples;
6. A maioria das abordagens de deteção de anomalias consideram uma única

visualização dos pontos no espaço de dados completo ao invés de analisar
múltiplas visualização dos pontos em subespaços; e realiza-se comparações
entre um candidato anômalo com todos os demais pontos da base de dados
ao invés de considerar subconjuntos de referência, isto é, uma vizinhança de
pontos para esse candidato.
7. Selecionar um conjunto de referência para determinar comportamento usual de

uma determinada aplicação real, não é trivial. Muitas vezes um comportamento
usual pode evoluir ao longo do tempo, e caracterı́sticas de referência atuais
pode não serem suficientemente representativas no futuro;
8. Em um espaço de alta dimensão, pressupõem-se que poucos são os subespaços

relevantes, porém selecionar subespaços relevantes não é trivial.
9. Existe um questionamento se anomalias podem ser definidas em termos das

propriedades de subespaço. Os métodos propostos de subespaço para detecção
de anomalias são na maioria recentes e concentram-se principalmente em
dois aspectos do problema: como identificar subespaços contendo instâncias
anômalas, e como construir escores baseados em diferentes dimensionalidades
de alguns subespaços.
10. Os escores anômalos obtidos de mútiplos algoritmos de detecção de anomalia

podem se diferenciar com relação ao seus sentidos, aos seus intervalos, em seus
contrastes, em suas escalas. Desta forma, não são facilmente comparáveis ou
interpretáveis. Maiores detalhes na seção 3.7.
10
11. A maioria dos algoritmos de agrupamento tradicionais apresentam as limitações
descritas: (i) os algoritmos são otimizados para encontrar grupos, e não pontos
anômalos; (ii) a acurácia de detecção de anomalias depende da eficiência do
algoritmo em capturar a estrutura dos grupos; (iii) um conjunto de pontos
anômalos que são similares entre si são considerados como um grupo ao invés
de um grupo de ruı́dos ou de anomalias; (iv) as estimativas de seus parâmetros
exercem grandes influências no resultado final.
1.5 Objetivos
Pesquisar, desenvolver e comparar técnicas não supervisionadas para identificar
observações anômalas em conjunto de dados mistos tendo três âmbitos de interesse:
cientı́fica, pessoal e social. No que concerne ao conhecimento cientı́fico, a futura
pesquisa preencherá lacunas existentes no âmbito teórico. Tais lacunas devem-se as
informações de difı́ceis acesso, uma vez que a bibliografia especı́fica ao tema abordado
é escassa. Com relação ao interesse como pesquisador, a pesquisa contribuirá na
confiabilidade das inferências e na descoberta de fatores relevantes em diversas áreas
do conhecimento que trabalham com bases de dados contaminadas com atributos
mistos. Uma vez que uma nova técnica seja criada, a uma contribuição no âmbito
cientı́fico é realizada. Do ponto de vista social, a técnica será mais uma ferramenta
para detectar anomalias com a combinação de conceitos de mineração de dados e de
estatı́stica, porque buscará unir eficiência e a interpretação da presença de anomalias
em um conjunto de dados.
1.5.1 Especı́fico
1. Buscar por trabalhos cientı́ficos o estado-da-arte relacionados com os objetivos
de interesse;
2. Buscar por algoritmos não tradicionais de análise de agrupamentos robustos

que formam grupos com formas arbitrárias;
3. Buscar por técnicas que identificam subconjuntos de atributos relevantes, e

subconjuntos de referência;
4. Buscar por técnicas de regularização e normalização de escores anômalos;
5. Buscar pela teoria ensemble para combinar os escores anômalos obtidos como
resultados da aplicação de diversos algoritmos para detecção de anomalias;
6. Realizar estudos de caso em bases de dados públicas contaminadas estudadas

previamente, e em novos conjuntos de dados;
1.6 Estrutura do texto

A organização do texto foi feita da seguinte forma: no Capı́tulo 1 foram apresen-
tadas a contextualização, a motivação do tema, e uma visão geral dos tipos de dados,
11
dos objetivos, das hipóteses e das lacunas da área. No Capı́tulo 2 é apresentado um
resumo dos principais pesquisas, o estado da arte, relacionadas aos objetivos desta
tese. Por sua vez, no Capı́tulo 3, são descritos os métodos que serão pesquisados. No
Capı́tulo 4 são apresentados os experimentos preliminares realizados com os algorit-
mos de análise de agrupamento que formam a base da maioria dos métodos dessa
área. Os planejamentos dos experimentos juntamente dos detalhes dos resultados
obtidos de cada problema proposto são descritos nesse Capı́tulo. No capı́tulo 5 são
apresentas as propostas de pesquisa e desenvolvimento desta tese.
1.7 Sı́ntese do capı́tulo

Neste capı́tulo foram apresentadas os conceitos gerais de um processo de detecção
de anomalias. Na introdução foram descritos as definições mais comuns dada para
uma anomalia, os tipos de anomalias, e os tipos de conjuntos de dados. Comumente
uma anomalia é caracterizada dependendo dos objetivos do estudo e do cenário
analisado. A motivação justificou a importância desta pesquisa, em que buscou
destacar a importância de utilizar uma abordagem não supervisionada e a necessidade
do desenvolvimento de técnicas nessa área. As limitações indicam as dificuldades
enfrentadas nesta pesquisa devido apresentarem muitos tópicos a serem tratados,
nas quais depende do cenário e dos objetivos de cada aplicação.
12
Capı́tulo 2
Revisão Bibliográfica sobre

Detecção de Anomalias
Neste capı́tulo é apresentado uma revisão da literatura com respeito as técnicas

para detecção de anomalias. A revisão realizada procurou investigar principalmente
os métodos não supervisionados, mas no geral procurou-se obter uma visão ampla
desse processo. O conteúdo desse capı́tulo está organizado nas seguintes seções: a
Seção 2.1 é apresentado um ideia geral de como o processo de detecção de anomalias
é tratado pela literatura; nas Seções 2.2 e 2.3 são abordados os primeiros conceitos
utilizados para detecção de anomalias, e nas Seções 2.4 é apresentada uma revisão
em análise de agrupamento tradicional.
2.1 Introdução
O processo de identificar anomalias em dados é uma área que esta em constante
desenvolvimento, na qual acumula uma grande quantidade de métodos. Apesar
disso, esse processo não esta bem definido por não existir uma universal abordagem
para detectar anomalias. Nesse cenário, é impossı́vel descrever todos os processos
avaliados, mas esta revisão foi realizada de uma forma geral e diversificada com
intuito de identificar o problema de um âmbito geral.
Um amplo domı́nio do conhecimento tem mostrado interesse na sua aplicação.
Assim, os trabalhos publicados na área apresentam uma grande diversidade de
aplicações e métodos. De uma forma geral as técnicas são baseados em: métodos de
classificação, análise de agrupamento [Jiang et al. (2006)], projeção aleatória [ Ye
et al. (2009)], grafos [Gogoi et al. (2011); Bhuyan et al. (2014), Yin et al. (2014)
], proximidades[ Orair et al. (2010)], densidade [ Ning e Tsung (2012); Breunig et
al. (2000)], profundidade [Chen et al. (2009)], distribuição de probabilidade [Fraley.
e Raftery (2011)], ambientes distribuı́dos propostas intrusivas [Tak et al. 2009] e
ambientes distribuı́dos propostas não intrusivas [Natarajan et al. 2012]. Diversos
trabalhos fornecem extensas revisões com relação ao processo de deteção de anomalia,
[Aggarwal (2013), Zimek et. al. (2012), Chandola et al. (2009), Hodge e Austin
(2004), e Zhang et al. (2008)].
Existem técnicas de detecção de anomalias mais genérica e podem tratar vários
domı́nios de aplicação, enquanto outras são diretamente ligadas a um domı́nio
13
de aplicação particular. Mas, no geral, considera-se nesse processo a seleção de
um método: em termos do conhecimento das caracterı́sticas do(s) atributo(s), da
escalabilidade, da dimensionalidade, da disponibilidade de dados rotulados, do(s)
tipo(s) de anomalia(s) de serem detectadas, do custo computacional, da capacidade
preditiva do método, [Gogoi et al. (2011)].
Existem dois aspecto em detecção de anomalia em que os dados podem estar
inseridos: um aspecto é estática (em inglês, off-line) e a outra é contı́nua (em
inglês, on-line). A detecção de anomalia on-line é significativamente diferente se
comparada a detecção de anomalia (off-line). Os dados on-line as informações chegam
continuamente em um ritmo rápido. A ideia mais trivial é que o comportamento
usual das informações altera-se no decorrer do tempo, assim é preciso atualizar tal
comportamento dinamicamente com registros que são provavelmente normais, pois
admite-se que a presença de um dado anômalo é rara. Um problema presente quando
se trabalha com dados on-line é que um novo grupo é formado com um dado que
chega, e os usuais métodos para detecção de anomalias não são capazes de distinguir
se um ponto que acabou de chegar na base de dados é anômalo ou é normal, nem no
momento quando ocorre a mudança, [Bhuyan et al. (2014)].
As pesquisas em detecção de anomalia iniciaram na área de Estatı́stica, mas
atualmente estão mais concentradas em Mineração de Dados, em que usualmente
se considera a noção de vizinhança ao invés da noção de variabilidade dos dados.
Muitas das técnicas de detecção de anomalias estão presentes em aprendizado de
máquina (AM) que é uma área de pesquisa da Inteligência Artificial (IA) que esta
dividida em três grandes classes: aprendizado supervisionado, semi-supervisionado e
não-supervisionado, [Chandola et al. (2009)], Knorr e Ng (1998)].
A análise de dados clássica utiliza o conceito de profundidade, na qual não se
admiti uma distribuição de probabilidade para os dados. As instâncias são organizadas
em camadas convexas no espaço, e uma anomalia é uma instância que assume um
valor na baixa profundidade. Esse método é computacionalmente inviáveis para
conjuntos de dados com mais do que três dimensões, [Gao e Tan (2006)].
As seguir são apresentadas revisões sobre os métodos baseados: em proximidade,
em técnicas estatı́sticas, e em análise de agrupamento.
2.2 Métodos baseados em proximidade

Os métodos baseados em distância para à deteção de anomalias apresentam uma
nı́tida interpretação geométrica. Assim, pode-se calcular um fator anômalo a partir
de uma função F : x 7→ R para caracterizar uma anomalia de forma quantitativa. A
função F depende da distância entre o ponto o e os demais pontos R no conjunto de
dados, [Gogoi et al. (2011)].
As medidas de distância podem ser calculadas para os tipos de atributos especifi-
cados a seguir,
1. Para um atributo contı́nuo - a medida mais popular é a distância Euclidiana

que é uma medida sensı́vel a presença de anomalias no conjunto de dados;
2. Para um atributo categórico - um simples coeficiente combinado;
14
3. Para um conjunto de atributos contı́nuo é usual utilizar uma medida de distância
ou de similaridade para cada atributo e então combina-los.
4. Para um conjunto de atributos mistos, um proposta de distância definida para

o espaço dimensional completo é dada por
Dist(oi , oj ) = Σm 2 mc
t=1 (wt (o1t − o2t )) + Σt=1 δ(wt (o1t , o2t )),
r
(2.1)
em que oi e oj é a i-ésima e a j-ésima instância, ∀i, j = 1, · · · , n; mr é a

quantidade de atributos numéricos e mc é a quantidade de atributos categóricos;
wt é um peso, e δ é uma função binária que assume valores 0 ou 1.
É relativamente fácil estimar a proximidade para atributos numéricos, o que

não é trivial, nos casos de atributos categóricos. Na maior parte das medidas de
distância não considera-se a distribuição dos dados, enquanto calcula-se a distância
entre quaisquer dois valores de atributos categóricos, o que é capturado naturalmente
para atributos numéricos.
Nos métodos de aprendizado supervisionado a distância é na verdade uma função
da distribuição dos dados. A função de distância deve também tomar a relação
significante intra atributos, e então uma medida de distância binária não é apropriada
para trabalhar com problemas de aprendizagem de máquinas, em que uma função de
distância binária δ atribuı́ 1 para nı́veis diferentes, e zero caso contrário. Por outro
lado, no aprendizado não supervisionado tal conceito é supostamente válido.
A distância quadrática de Mahalanobis é um método popular para identificar
anomalias multivariada. A técnica supõem que os dados seguem uma distribuição
normal multivariada então a distância quadrática de Mahalanobis (M D2 (oi , D))
segue aproximadamente uma distribuição Chi quadrado com p graus de liberdade,
χ2p , em que p é o número de atributos, [Jackson (2004); e Finch (2011)].
Seja a matriz Dn x p dada,
 
o11 o12 · · · o1p
 o21 o22 · · · o2p 
D=
 
.. .. . . .
. ..

 . . 
on1 on2 · · · onp
A distância quadrática de Mahalanobis é calculada para cada instância. A

expressão M D2 (oi , D) é dada como segue
M D2 (oi , D) = (oi − o¯i )S −1 (oi − o¯i )t ,
em que oi é a i-ésima linha da matriz D, ō é o estimador de locação multivariado

−1
e S é a estimativa da matriz de covariâncias não viesada.
O método considera como anomalia todos os pontos em que M D2 (oi , D) é maior
do que o quantil da distribuição chi quadrado dado o seu grau de liberdade ao nı́vel
de confiança de (1 - α1 )%, isto é, M D2 (oi , D) > χp,1− 1 .
α
15
2.3 Métodos estatı́sticos
Os primeiros trabalhos realizados em detecção de anomalias foram da área de
Estatı́stica. Tais abordagens buscam por técnicas robustas que sejam capazes de
capturar a real variabilidade dos dados e assim as estimativas dos parâmetros não
sejam viesados. Simples medidas resumos, a medida de assimetria e de curtose da
distribuição foram usadas em Zhang e Kosecká (2006) para separar anomalias de
pontos de referência, mas o uso de tais medidas está restrita a dados gerados de uma
única distribuição.
Os métodos estatı́stico utilizados para detecção de anomalias se dividem em:
métodos paramétricos que se baseiam em distribuições de probabilidades para os
dados, na qual tem sido utilizados conjuntamente com abordagens supervisionadas
para se obter padrões gerais para anomalias. Nesse contexto, uma anomalia é uma
instância que não bem se ajustou ao modelo proposto, [Jiang (2009)e Kovács et .al,
(2004)], e método não paramétricos que não assumem conhecida a distribuição dos
dados, por exemplo, os métodos de alisamento, de binning, de bagging, os baseados
em profundidade, testes de hipóteses, análises gráficas e análises de diagnósticos,
[Gao e Tan (2006)].
Em estudos de observações independentes, uma popular abordagem são os modelos
de mistura também denominados por agrupamento de modelos utilizado para detectar
anomalias e novidades. Uma novidade é um padrão nos dados que surgiu devido
a informação não identificadas ou é um padrão não identificado anteriormente
no estudo. Os modelos de mistura consistem de uma soma ou composição de
distribuições de probabilidade e/ou função densidade de probabilidade dependendo
do tipo do atributo analisado. A detecção de novidade vem sendo muito pesquisada
em aplicações envolvendo grandes volumes de dados adquiridos de sistemas crı́ticos.
Em estudos de observações dependentes, como as séries temporais que é usual
determinar o contexto (ou proximidade) do evento devido termos o tempo que
determina a posição do evento sobre a sequência toda, [Salvador e Chan (2003)],
e no caso, de dados espaciais, em que pode-se ter atributos que determinam a
localização, como a latitude e a longitude, [Kou et al. (2006)]. Nesse contexto, os
mais populares modelos são os modelos de séries temporais univariados, como os
modelos autorregressivos de médias móveis (ARMA), autorregressivos integrados de
médias móveis (ARIMA), e autorregressivos integrados de médias móveis (ARIMA),
[ Manish Gupta et al. (2013)]; soma acumulativa (CUSUM), [Montgomery (1996);
Das (2009)].
A detecção de anomalias em dados dependentes não é trivial, porque é necessário
identificar instâncias com surpreendente combinação de propriedades temporais, e
como eles modo serem camuflados na mudança da tendência, da sazonalidade, ou
do cı́clico. De tal forma que as técnicas para a detecção de anomalia temporal são
muito diferentes se comparadas as técnicas de detecção de anomalia gerais.
2.4 Métodos baseados em análise de agrupamento

Tradicionalmente, os algoritmos de análise de agrupamento formam grupos por
semelhança entre pontos. Os pontos que não pertencem a nenhum grupo, ou que
16
estão distantes dos centros dos grupo, ou que pertencem aos pequenos e dispersos
grupos devem ser investigados, e na maioria dos casos são assumidos serem anômalos,
[Chandola et. al. (2009), Amer (2011)].
O critério de homogeneidade dentre os grupos, e o tamanho de um grupo depende
do problema. O que no geral ambos são difı́ceis de serem definidos na prática. Uma
solução é definir um limiar para se estimar o tamanho dos grupos, [Sim et al. (2013)].
Pode-se considerar que existem três diferentes classes de algoritmos de agrupa-
mento: os algoritmos combinatórios, os modelos de mistura, e os de modo de busca.
Na árvore são apresentadas as subáreas de análise de agrupamento. A parte não
tradicional do agrupamento de dados foi desenvolvida para tratar aplicações com
conjuntos de dados com alta dimensão.
Figura 2.1: Métodos para análise de agrupamento de dados tradicional e não

tradicional. Adaptado de Sim et al. (2013)
A seguir é apresentada uma revisão dos principais conceitos dos algoritmos de

análise de agrupamento que se dividem usualmente em agrupamento hierárquico e
agrupamento particionado.
2.4.1 Métodos hierárquico

Nos algoritmos agrupamento hierárquico tradicionais, gera-se uma hierarquia de
grupos, usualmente representada em um dendrograma, na qual representa a evolução
do agrupamento em uma estrutura em árvore, em uma escala de medida de distância.
O dendrograma é um complementar método não linear interpretável para estudos
com no máximo 100 elementos. Ele frequentemente fornece uma boa impressão visual
com relação ao inerente número de grupos. Tal abordagem permite explorar dados de
diferentes nı́veis. Eles são divididos em duas categorias: divisiva(em inglês top-dow )
e aglomerativa (em inglês botton-up), [Jain e Dubes 1988; Kaufman e Rousseeuw
(1990)].
Na abordagem divisiva, o processo inicia com todas as instâncias no mesmo
grupo e vai dividido sucessivamente até que cada grupo contenha um único elemento.
17
Uma vez que duas instâncias foram separadas, elas não mais serão agrupadas no
mesmo grupo. A qualidade desse agrupamento depende de critérios previamente
estabelecidos, [Rodrigues (2009)].
Na abordagem aglomerativa, cada instância é um grupo, e a cada etapa do
processo, os dois grupos mais similares são unidos até que, ao final, exista um único
grupo formado por todos as instâncias. Uma vez que unidas duas instância em um
mesmo grupo, elas não mais se separam. A qualidade desse agrupamento depende
fortemente do método de proximidade selecionado.
Para separar ou dividir subconjuntos de pontos em vez de pontos individuais, a
distância entre pontos individuais tem de ser generalizada para a distância entre os
subgrupos denominada de métrica de ligação. As principais métricas de ligação entre
grupos [Murtagh (1985), Olson (1995)] são a ligação simples ( em inglês single link ),
a ligação média (em inglês mean link ), e a ligação completa (em inglês complete link ).
Formalmente,
d(C1 , C2 ) = operacao(d(oi , oj ), oi ∈ C1 , oj ∈ C2 )
A fórmula atualizada de Lance-Williams é uma generalização das ligações métricas
ilustradas acima,
d(Ci , Cj , Ck ) = a(i)d(Ci , Ck ) + a(k)d(Cj , Ck ) + bd(Ci , Cj ) + cd(Ci , Ck ) − d(Cj , Ck ),
em que a, b, c são coeficientes das particulares ligações, e ∀ i, j, k = 1, · · · , n.

Esta fórmula expressa uma métrica de ligação entre a união de dois grupos e o
terceiro grupo em termos de componentes subjacentes.
As vantagens do agrupamento hierárquico estão relacionadas a: flexibilidade
incorporada em relação a gradual nı́vel, facilidade em trabalhar com quaisquer
formas de similaridade ou distância, e consequentemente, aplicável a quaisquer tipos
de atributo. Por outro lado, os problemas se remetem a: não revisitarem os dados
uma vez construı́dos os grupos. Além disso, quando o número de amostras observadas
é relativamente grande, os algoritmos aglomerativos tem um alto custo computacional
e alta demanda de memória, [Steinbach et. al. (2014)].
Os algoritmos hierárquicos divisivos Diana, Self-organizing tree algorithm (SOTA),
e minimum spanning tree (MST) são um dos poucos algoritmos hierárquicos divisivos.
O algoritmo SOTA é uma rede não supervisionada com uma estrutura em árvore
de divisão hierárquica binária. Ele foi utilizado inicialmente para reconstrução de
filogenética, [Dopazo e Carazo (1997)], e em seguida foi utilizado para agrupar dados
de gene microarray.
Algoritmo de agrupamento baseado na teoria dos grafos é baseado na construção
da Árvore de Expansão Mı́nima - MST ( em inglês Mı́nimum Spanning Tree ) dos
dados [Zahn (1971)], sendo então apagadas as extremidades da árvore com o maior
comprimento, para gerar grupos. O método é análogo ao single link, é eficiente
apenas para pequenos conjuntos de dados.
Os algoritmos de agrupamento hierárquico que utilizam de métricas de ligação
baseadas na distância euclidiana para dados espaciais naturalmente predispõem
grupos de formas convexas adequadas. O algoritmo de agrupamento hierárquico
aglomerativo CURA ( Clustering Using REpresentatives) é capaz de encontrar
18
aglomerados de diferentes formas e tamanhos, e é insensı́vel a anomalias, pois usa de
amostragem, [Berkhin].
Nas publicações de Guha et al. (1998, 1999) são apresentados os algoritmos
agrupamentos robustos hierárquicos aglomerativos para conjuntos de dados com de
baixa dimensão, denominados CURA e ROCHA, respectivamente. A diferença entre
ele é que o algoritmo CURA foi planejado para trabalhar com atributos numéricos, e
o algoritmo ROCHA para trabalhar com atributos categóricos.
O algoritmo de agrupamento robusto para dados categóricos - ROCHA, [Guha
et al. 1999] é análogo ao algoritmo CURA, e eles têm como caracterı́sticas: (1)
são agrupamento hierárquicos, (2) aglomeram continuamente até que determinado
número de grupos seja formado, e (3) utiliza de dados de amostragem. Os conjuntos
consistem em pontos com um elevado grau de conectividade entre pares de pontos
dentro de um grupos.
O ROCHA utiliza da função objetiva, e quando trabalha-se com atributos ca-
tegóricos é necessário preocupar-se com a presença de possı́veis erros de classificação,
erros de entrada de dados, e a duplicação de instâncias. Sendo que os erros de
classificação são definidos como classes fora do léxicos do atributo, e um erro de
entrada de dados, por exemplo, são os erros de ortografia, e a duplicação são en-
tradas duplicadas distintas em uma lista para um mesmo destinatário, [Elavarasi e
Akilandeswar (2014)].
2.4.2 Métodos particionado

Os algoritmos de agrupamento particionado formam grupos por iteração de
realocação de pontos, e procuram minimizar a variabilidade intra grupo e bem
trabalham com grandes volumes de dados. Naturalmente formam grupos de formas
convexas. Requerem a estimativa do número de grupos k. A seguir são apresentados
alguns dos populares algoritmos de agrupamento particionados.
Algoritmo k-médias
O algoritmo de agrupamento particionado mais conhecido é o k-médias (em inglês
k-means) [Hartigan (1975)]. Ele não é um algoritmo robusto e a presença de anomalia
nos dados pode degradar severamente o seu desempenho, [Tan et. al. (2006)].
É um método iterativo que busca minimizar a soma dos quadrados dentre os
grupos para um número previamente determinado de grupos, [Hartigan e Wong
(1979)]. O algoritmo começa com uma estimativa inicial para os centros dos grupos
(centroides), os grupos são formados por instâncias próximas aos centroides. A
cada iteração, os centroides são atualizados, e todo o processo é repetido até que os
centroides já não se movam mais.
O resultado do k-médias depende da inicialização dos valores dos centroides no
primeiro passo e da estimativa do número de grupos k . Uma alternativa é correr
várias vezes o algoritmo para reduzir o erro de aproximação aos valores iniciais dos
centroides com o objetivo de que o algoritmo encontre o mı́nimo global da soma
de quadrados total intra grupo, e com relação a k, por exemplo, pode ser estimado
utilizando um adequado algoritmo hierárquico ou um gráfico escarpa (em inglês
screen plot).
19
A média amostral dos valores dos elementos de um determinado grupo é a
estimativa dada para o centroide cj . À sua formulação é dada a seguir,
1 nj (j)
cj = Σ x (2.2)
nj i=1 i
O objetivo do k-médias é de minimizar a soma de quadrados total intra grupo
definida por,
2
nj (j)
Σkj=1 Σi=1 xi − cj → min, (2.3)

(j) (j)
em que ||xi − cj ||2 é a distância Euclidiana entre um elemento xi e o centroide
cj do grupo j, no entanto outra medida de distância pode ser utilizada. A função
dada mostra claramente que nem todas as distâncias pareadas são necessárias para o
algoritmo, mas apenas as distâncias dos elementos de um grupo ao seus respectivos
centroides.
Algoritmo k-medoides
O algoritmo k-medoides e k-médias diferem-se, no geral, com relação a estimativa
dos centroides dos grupos. No caso do k-médias considera-se a média amostral, e o
k-medoides considera as localizações que bem representam os grupos.
Pelo fato, da média aritmética não ser uma estimativa robusta consequentemente o
algoritmo k-médias também não é. Por outro lado, temos que o algoritmo k-medoides
que é robusto, desta forma apresenta um desempenho satisfatório na presença de
anomalias nos dados, porém apresenta maior tempo computacional se comparado ao
k-médias.
O algoritmo Partitioning Around Medoids (PAM) busca pelos melhores k-medoides
nos dados e bem trabalha com amostras pequenas. Para grandes bases de dados
foi desenvolvido o algoritmo Clustering LARge Applications (CLARA) que realiza
uma amostragem, selecionando subamostras baseada na média de dissimilaridade
do conjunto de dados e para cada uma das subamostras é implemento um PAM.
Tal procedimento de amostragem permite uma melhora na eficiência do tempo
computacional. [Kaufman e Rousseeuw (1990)].
Agrupamento baseado em densidade

Os algoritmos particionados baseados em densidade formam grupos de formas
arbitrárias e buscam por elementos densamente conectados, também consideram a
distância entre os pontos, e não são afetados pela presença de anomalias nos dados.
Eles são inadequados para trabalharem com conjuntos de dados categóricos e com
altas dimensões, [Gogoi et al. (2011)].
A ideia do algoritmos de agrupamento baseado em densidade de pontos é a de
formar grupos por áreas de alta densidade e separa- los por áreas de baixa densidade
de pontos. As áreas de baixa densidade de pontos são consideradas locais ruidosos.
Na sua estrutura ele considera uma vizinhança radial de pontos no espaço e os grupos
20
são formados por conectividade de densidade de pontos. O mais popular método de
agrupamento baseado densidade é DBSCAN.
O processo realizado pelo DBSCAN é descrito: se a quantidade de pontos
conectados for menor do que o número mı́nimo de pontos, Minptos, a amostra é
considerada como uma anomalia ou como uma instância que esta na fronteira de um
grupo. Um ponto está na vizinhança de um grupo se a distância dele ao centro desse
grupo é menor do que um valor ε. Se a quantidade de pontos vizinhos for maior ou
igual ao Minptos um grupo é formado, caso contrário a região é considerada ruidosa.
O algoritmo transita por todos os pontos várias vezes realizando o processo descrito.
As limitações do DBSCAN são descritas: exige dois parâmetros ε e Minptos
inicialmente para execução do algoritmo, e é sensı́vel ao valor das estimativas desses
parâmetros, não consegui agrupar dois conjuntos de dados com grandes diferenças de
densidade, e perde à sua eficiência em dados com alta dimensão, [Tan et. al. (2005 );
Swathi et. al. (2012)].
O algoritmo DBSCAN apresenta um modelo de agrupamento bem definido.
Semelhante ao agrupamento baseado em ligação, que baseia-se em pontos de conexão
dentro de certos limites de distância. No entanto, ele apenas conecta-se aos pontos
que satisfaçam um critério de densidade, que é definida como um número mı́nimo de
pontos internos dado o raio ε. Esse algoritmo respeita a forma natural dos dados
e tem uma complexidade computacional baixa, devido exigir um número linear de
consultas de intervalo no conjunto de dados. Esse algoritmo é capaz de identificar os
centros dos grupos e as anomalias, mas não é capaz de separar os ponto das fronteiras
dos pontos pertencentes a um grupo, portanto, não há necessidade de executá-lo
várias vezes. Por essa, razão é um método inadequado para casos em que os grupos
não são bem separados.
A seleção do parâmetro ε não é trivial. Uma sugestão é o gráfico K-dist para
identificar o valor de ε e analisar dos nı́veis de densidade dos pontos, [Swathi et. al.
(2012)]. O algoritmo OPTIC (Ordenação de Pontos para Identificar a Estrutura de
Agrupamento) é uma generalização do DBSCAN e produz um resultado relacionado a
hierárquica da agrupamento. Diferente do algoritmo DBSCAN no algoritmo OPTIC
não é exigido a estimativa de ε para à sua execução.
As principais desvantagem dos algoritmos DBSCAN e OPTIC é que eles buscam
por áreas de baixa densidade para determinar as fronteiras do grupo. Além disso, eles
não podem detectar estruturas de fragmentação intrı́nsecas que são predominantes
na maioria dos dados reais. Uma variação de DBSCAN é o EnDBSCAN (Embedded
Cluster Using Density Based Techniques ) que detecta eficientemente esses tipos de
estruturas, [Barua et. al. (2012); Roy et. al. (2005)].
2.4.3 Agrupamento probabilı́stico

A análise de agrupamento baseada em modelos probabilı́sticos pressupõem que o
conjunto de dados completo foi gerado por diferentes distribuição de probabilidade,
ou seja, os dados foram gerados por um modelo de mistura.
O número de grupos k é igual a quantidade de distribuição de probabilidades
misturadas no modelo de mistura. Uma anomalia é uma instância que não bem se
ajustou ao modelo de mistura, [Fraley e Raftery (2011)].
21
Formalmente, admite-se que existem k distribuições de probabilidade e um
conjunto de parâmetros Θ = {θ1 , · · · , θk }, em que θj é o subconjunto de parâmetros da
j-ésima distribuição de probabilidade. Um tamanho n de instâncias são consideradas,
O = {o1 , · · · , on }.
A probabilidade que a j-ésima distribuição gerar a instância oi é dada pela
probabilidade por P (C = cj ), para 1 ≤ j ≤ k e Σkj=1 P (C = cj ) = 1 . A probabilidade
de uma instância oi ser gerada é , [Tan et. al. (2006)].
k
X k
X
P (oi ; Θ) = P (oi ∩ Cj = cj ) = P (oi |C = cj )P (C = cj ) (2.4)
j=1 j=1
A probabilidade do i-ésimo elemento pertencer a j-ésima distribuição é dada por

P (oi ∩ Cj = cj ), [Fraley e Raftery (2011)]. Se os elementos são gerados de forma
independente então a distribuição de mistura é o produto da probabilidade de cada
instância, oi .
n X
Y k
P (χ|Θ) = P (O = oi |C = cj )P (C = cj ) (2.5)
i=1 j=1
A abordagem mais simples de agrupamento baseado em modelo para k grupos

pressupõem que os elementos dos grupos foram gerados por distribuições normais
multivariadas com vetores de médias distintos e idênticas matrizes de variâncias e
covariâncias na forma σ 2 I, na qual obtém-se grupos esféricos de tamanhos iguais.
Neste mesmo sentido, e que é realizado o k-médias ou, mais geralmente, o agrupamento
fuzzy c-means, em que espera-se grupos de formas esféricas. Uma situação complexa
é quando gera-se grupos esféricos de diferentes tamanhos ou quando a matriz de
variâncias e covariâncias não tem forma diagonal. Nesse caso ao invés de esferas as
formas dos grupos elı́pticas.
O agrupamento baseado em modelo tem uma boa fundamentação teórica. Os
estimadores de máxima verossimilhança não são viesados e têm variância uniformente
mı́nima, ao contrário dos estimadores obtidos pela maioria dos métodos de análise
de agrupamento que são viesados. Além disso, um modelo complexo geralmente é
capaz de explicar melhor aos dados. Os seus resultados no sistema de agrupamento é
facilmente interpretável. No entanto, um modelo complexo pode sofrem do problema
de superajuste, devido à sua grande quantidade de parâmetros a serem estimados.
Para que não ocorra o superajuste restringi-se a complexidade do modelo, por
exemplo, utilizando o algoritmo de expectativa de maximização - EM, se o número
de elementos em um grupo for grande.
O logaritimo da verossimilhança serve como uma função objetiva para se obter o
método EM, [Dempster et al. (1977); McLachlan e Krishnan (1997)]. O EM é uma
otimização iterativa realizada em duas etapas. Na primeira etapa (E) calcula-se as
estimativas das probabilidades, P (oi |C = cj ), e na segunda etapa (M) encontram-se
as estimativas para os parâmetros do modelo de mistura que maximizam o log-
verossimilhança. A função de verossimilhança L é definida por
22
n
Y
L(θ; o1 , · · · , on ) = f (o1 ; θ) · f (o2 ; θ) · · · f (on ; θ) = f (oi ; θ), (2.6)
i=1
Aplicando o logaritimo natural em L têm-se,
n
X
l(θ; o1 , · · · , on ) = lnf (oi ; θ). (2.7)
i=1
Para atributos discretos denomina-se distribuição de probabilidade, P (oi ; Θ), e

no caso de atributos contı́nuos temos uma função de densidade de probabilidade,
f (oi ; Θ), ∀i ∈ {1, · · · , n}, em que θ é representa o conjunto de parâmetros a serem
estimados.
Uma proposta de modelo de mistura é o algoritmo de agrupamento AUTOCLASS
que foi construı́do a partir da teoria Bayesiana e considera uma ampla variedade de
modelos probabilı́sticos, por exemplo Bernoulli, Poisson, Gaussiana, e log-normal.
No entanto, existem casos em que a forma de um ou mais grupos não consegue ser
representada por um modelo matemático. Quando se desconhece a distribuição dos
elementos de um grupo é recomendado utilizar técnicas não paramétricas, [Cheeseman
e Stutz (1996)].

Neste capı́tulo foi apresentada uma revisão de alguns dos tradicionais métodos
utilizados para a deteção de anomalia. Essa revisão teve como objetivo conhecer
as caracterı́sticas das populares técnicas em deteção de anomalias baseadas em:
proximidade, densidade, estatı́stica, e dos algoritmos de análise de agrupamento
tradicionais. As técnicas investigadas nesta revisão perdem às suas eficiências quando
aplicadas a conjuntos de dados com altas dimensões, e identificam anomalias globais.
23
Capı́tulo 3
Métodos para Detecção de

Anomalias
Neste capı́tulo são apresentadas propostas de métodos a serem investigadas.

O conteúdo desse capı́tulo está organizado nas seguintes seções: na Seção 3.1 é
introduzido a abordagem de deteção de anomalias local, na Seção 3.2 são descritos
alguns conceitos a respeito de deteção de anomalia em conjunto de dados misto,
na Seção 3.3 são apresentados alguns algoritmos de agrupamento de dados para
dados com altas dimensões; nas Seções 3.4, 3.5 3.6 são introduzidos os conceitos
de análise de agrupamento em subespaço, de projeções e de dados correlacionados,
respectivamente. Na Seção 3.7 é descrito a respeito da saı́da de algoritmos de deteção
de anomalia, os escores anômalos.
3.1 Deteção de anomalias local

As abordagens de detecção de anomalias não supervisionadas estão divididas
em duas categorias: global e local. Na abordagem global realiza-se comparações
considerando o conjunto de dados completo Dn x p . Na abordagem local seleciona-se
um conjunto de referência local N a cada vez que se realiza uma comparação.
Resolution based Outlier Factor - ROF é um modelo para detectar anomalias que
combina os conceitos de anomalia local e global, na qual aborda a ideia de alteração
do número de instâncias que representam uma vizinhança, [ Fan et al. (2006)].
Na abordagem local pressupõem-se que os atributos de Dn x p foram gerados por
diferentes distribuições de probabilidade, isto é, o conjunto de dados foi gerado por
distintos mecanismos, sendo que cada mecanismo gerou uma quantidade significante
de instâncias. Então o efeito da concentração será tipicamente menos severo para
consultas baseadas em pontos de um grupo, especialmente quando os grupos são
bem separados, [Schubert et al (2014)].
A definição de N é baseada no conceito de localização de vizinhos de um ponto,
no sentido de distância entre os pontos. A localidade é comumente definida por
kNNs, um intervalo de consulta com um raio ξ, uma vizinhança espacial baseada em
grafos adjacentes ou polı́gono adjacentes, ou um contexto temporal em termos de
uma janela deslizante.
Anomalia local foi introduzida em Breunig et al. (2000) quando apresentou o fator
24
de anormalidade local - LOF. O LOF é um sistema que resulta em um escore anômalo
para cada instância. É baseado na noção de um dados ponto conectado densamente
à sua vizinhança. Os pontos localizados em regiões de muito baixa densidade são
classificados como anomalias. As estimativas das densidades são obtidas usando de
distâncias entre instâncias.
Os procedimentos básicos do cálculo do escore anômalo para cada instância são
descritos, a seguir [Torgo (2010)]:
1) Para obter a distância de uma instância o à sua vizinhança mais próxima é usado
os conceitos de kNN;
2) O conceito de distância alcançada entre as instância o1 e o2 é dada pela máxima

distância central de um o1 e as distâncias entre ambos as instância;
3) A distância alcançada local de uma instância é inversamente proporcional a

distância alcançada média de seus k vizinhos.
Na abordagem local os escores anômalos obtidos são adaptáveis às flutuações na

densidade local e, portanto, destina-se a ser comparáveis ao longo de um conjunto
de dados com distintas densidades.
Uma limitação frequente para a maioria dos algoritmos, inclusive para o sistema
LOF é de ser apenas apropriado para lidar com atributos numéricos. Mas sabe-se
que é usual a frequência de misturas de tipos de atributos numéricos e categóricos
em diversas aplicações reais, ver Seção 1.1. Por essa razão, é necessário recorrer a
algumas alternativas, como
1) A primeira alternativa é usar uma função de distância para conjunto de da-

dos misto ao invés de função de distância apropriada apenas para atributos
numéricos no código fonte da implementação do LOF.
2) A segunda alternativa é transformar os nı́veis dos atributos categóricos em

numéricos.
3) A terceira alternativa é não considerar os atributos categóricos na análise, em

conjuntos de dados misto.
Um atributo categórico com k possı́veis nı́veis pode ser re-codificado em k-1

atributos binários denominado como variáveis dummy, na qual indicam a presença
ou a ausência de qualquer dos k nı́veis. Quando um atributo categórico têm vários
nı́veis, e como cada nı́vel é um atributo quando se utiliza variáveis dummy o aumento
da dimensionalidade dos dados aumenta absurdamente, [Torgo (2010)].
Os procedimentos gerais apresentados no esquema 3.1 são planejados para identi-
ficar anomalias de uma forma não supervisionada.
25
Figura 3.1: Esquema de deteção de anomalias local. Adaptado de Schubert et al.
(2014)
.
Entrada: O conjunto de dados Dn x p .
Saı́da: Escores anômalos calculados para cada instância,

oi ∈ Dn x p ∀ i ∈ (1, · · · , n) .
1) Construção do modelo
i) Para cada instância oi são realizados os procedimentos a seguir.

ii) Selecione um contexto para oi .
iii) Construa um modelo para oi dependendo do contexto de oi .
2) Comparação de modelo
i) Para cada instância oi são realizados os procedimentos a seguir.

ii) Selecione um r ∈ referência para oi .
iii) Cálculo do escore, escore(oi ) := comparação(modelo(oi ), modelo(r) ).
3) Normalização dos escores, caso necessário.
i) Para cada instância oi é realizado o procedimento a seguir.

ii) Normalize o escore(oi ).
26
Em alguns casos, é necessário normalizar as informações, seja para que seus
valores fiquem no intervalo [0:1], ou para que fiquem com média zero, µ = 0, e
variância igual a um, σ = 1, ou até mesmo trabalhem sobre ranks. Qualquer que seja
a transformação realizada ocorrerá perda de informação, mas em geral, obtém-se
uma maior confiança com relação aos resultados finais obtidos.
Os escores anômalos obtidos de métodos locais são capazes de bem se adequar
a flutuações na densidade local e assim serem comparáveis sobre um conjunto de
dados contendo diferentes densidades, [Schubert et al. (2012)].
Para ilustrar os procedimentos de detecção de anomalias local em Schubert et
al. (2014) é utilizado os conceitos do LOF como base. As etapas realizadas para
obtenção do escore LOF são dadas a seguir, [Breunig et al. (2000)]:
1) Adota-se a técnica kNNs tanto para contexto de oi como para referência de oi .
2) Obtém-se uma estimativa para o modelo de acessibilidade de densidade local -

lrd com base no contexto local. Uma formulação é dada por,
1
lrd(o) := P , (3.1)
q∈contexto(o) alcance−distanciak (o,q)
|contexto(o)|
em que o alcance - distancia é dado por:
alcance − distanciak (o, q) := max {kN N − dist(q), dist(o, q)} (3.2)
3) Considera-se uma medida de distância, e calcula-se o kNN - distância(q) que é

a distância entre q e o k-ésimo vizinho mais próximo de q, isto é, um valor
obtido do contexto local de q.
4) Obtém-se o escore final da comparação dada a seguir,
lrd(s)
LOF (o) := avgs ∈ ref erencia(o) (3.3)
lrd(o)
O LOF usa de técnicas de comparação mais complexa se comparadas as de

ordenação de valores unidimensionais, realizado nas medidas de distâncias e de
densidades que baseiam-se nos valores de mı́nimo e de máximo do conjunto de dados
completo. Além disso, esse sistema não realizada normalização global.
A etapa de construção do modelo frequentemente é simples. Se assemelha a
aplicar a contagem de instâncias dado um raio de proximidade entre os pontos, como
realizado em uma simples estimativa de densidade. Nesse cenário, o contexto e a
referência são globais, mas a definição do modelo é particular. No entanto, muitas
das abordagens tentam simplificar a construção do modelo por razões de eficiência.
Pesos seguindo uma distribuição Gaussiana podem ser atribuı́dos a pontos de
uma vizinhança de uma dada instância, porque os pesos atribuı́dos aos ponto de uma
27
vizinhança decrescem a medida que à distância entre um ponto central e os pontos
da sua vizinhança mais próxima aumenta, e vice versa. Se um dos vizinhos têm uma
distância a com relação a o, espera-se que o valor assumido por o seja próximo a uma
estimativa amostral ponderada de sua vizinha mais próxima, formalmente, [Torgo
(2010)]
w(a) = exp(−a). (3.4)
3.2 Detecção de anomalias em conjuntos de dados

mistos
A quantidade de métodos desenvolvidos para detectar anomalias em conjuntos
de dados mistos é escassa se comparada a essa quantidade para conjuntos de dados
com atributos contı́nuos. Usualmente, os algoritmos bem trabalham com atributos
contı́nuos ou com atributos categóricos. Para superar esse problema são descritas
algumas das estratégias utilizadas:
1. Recodificar valores de atributos categóricos em valores inteiros numéricos. No

entanto é muito difı́cil atribuir um valor numéricos correto a valores categóricos;
2. Outra alternativa é discretizar atributos numéricos. No entanto o processo de

discretização carrega a perda de informação.
Diversas abordagens foram construı́das baseadas em frequências de padrões para

tratar atributos categóricos, a qual é também utilizada na parte categórica de
conjuntos de dados misto. Os atributos categóricos não podem ser representados da
mesma forma como os atributos quantitativos, uma vez que não tem uma natural
ordem, e não existe informação de distância, e é impossı́vel obter uma função de
correlação entre eles. As informações sobre os atributos categóricas reside dentro de
suas categorias. Uma natural representação de um atributo categórico é pelo seu
centro de gravidade, [Murthy et al. (2013)].
A proximidade de dois objetos obviamente depende da proximidade entre todos os
valores de seus atributos. É relativamente fácil estimar a proximidade para atributos
numéricos, o que é difı́cil, nos casos de atributos categóricos. Na maior parte das
medidas de distância não leva-se em consideração a distribuição dos dados, enquanto
calcula-se a distância entre quaisquer dois valores de atributos categóricos, o que é
capturado naturalmente para atributos numéricos.
Os objetivos de um estudo podem estar relacionados com as instâncias, os
atributos e as categorias. Isto levanta um certo número de questões interligadas.
Para proporcionar uma tipologia das instâncias: quais são as instâncias mais similares
ou mais dissimilares. Considere o exemplo, dos dois bebedores de chá são ditos
similares, se eles responderem às perguntas da mesma forma. Os indivı́duos são
comparados segundo as categorias selecionadas. A partir desta perspectiva única,
a distância entre os dois indivı́duos depende inteiramente de suas caracterı́sticas e
não das caracterı́sticas dos demais indivı́duos. No entanto, é importante para ter em
28
conta as caracterı́sticas dos outros indivı́duos para calcular à sua distância. Vamos
considerar quatro exemplos, a fim de compreender como a similaridade entre dois
indivı́duos pode ser calculada, [Husson et. al.(2011)]:
1. Se dois indivı́duos selecionar as mesmas categorias, a distância que separa é

nula;
2. Se dois indivı́duos selecionarem as mesmas categorias na maioria das vezes,

eles deve estar próximos;
3. Se dois indivı́duos selecionam todas as mesmas categorias, exceto por uma

que é selecionada por um dos indivı́duos e raramente por todos os demais
indivı́duos, os indivı́duos devem ser distanciados para dar conta da unicidade
de um dos dois;
4. Se dois indivı́duos compartilham uma categoria rara, eles devem estar juntos,
apesar de serem diferentes em outros casos, a fim de explicar à sua distinção
comum.
3.3 Análise de agrupamento em alta dimensão

Nos últimos anos o fluxo de informações teve um aumento significativo, vindo do
crescimento tecnológico, o que fez com que os métodos tradicionais fossem adaptados
para esse novo cenário. De modo a análise de agrupamento se dividiu-se em duas
abordagens: as que consideram espaço completo e as que consideram subespaços,
[Zimek et al. (2012)].
Os algoritmos tradicionais de agrupamento de dados consideram espaço completo
e são planejados para trabalharem em espaços de dados de dimensões baixas. Em
espaços de altas dimensões eles perdem à sua eficiência, porque a noção de proximidade
entre pontos perde o sentido, e se torna mais difı́cil identificar a distribuição dos
dados, popularmente conhecida como à maldição da dimensionalidade, [Müller et al.
(2011), Kriegel et al. (2009)].
Com o aumento da dimensionalidade as distâncias entre os pontos aumentam,
enquanto a variância relativa diminui. Analogamente, a medida que os subespaços
crescem as distâncias entre as instâncias em um subespaço S também crescem. Este
é um problema comum que também afeta a análise de agrupamento em subespaço
baseado em grid e em windows, [Sim et al. (2013)].
A análise de agrupamento em alta dimensão pressupõem que diferentes grupos
podem ser formados em diferentes subespaços. Por essa razão, não existe proce-
dimento de redução da dimensionalidade global que seja capaz de identificar um
subespaço comum para determinar todos os grupos do conjunto de dados. Sendo essa
suposição uma significativa propriedade para definir sobreposição de grupos em altas
dimensões, isto é, quando uma instância pertence a diferentes grupos contidos em
distintos subespaços. A sobreposição de grupos é uma possibilidade não explicada
pelos algoritmos tradicionais de agrupamento de dados, [Sim et al. (2013)].
Os principais problemas vistos em agrupamento de dados em altas dimensões
se remetem à: buscar por subespaços relevantes e buscar por grupos significantes.
29
Ambos os problemas precisam ser resolvidos simultaneamente, e à sua solução é
obtida da aplicação de heurı́sticas para ambos os casos. Trabalhar com apenas os
subespaços relevantes leva a redução do custo computacional de forma que tem-se
da ordem de 2p - 1 subespaços possı́veis a serem analisados, em que p é a quantidade
de atributos de um conjunto de dados.
A definição de cinco classes de algoritmos de análise de agrupamento para tratar
conjuntos de dados com altas dimensões são descritas a seguir, [Kriegel et al. (2009);
Sim et al. (2013)].
1) Algoritmos de agrupamento de projeções são planejados para encontrar as melho-

res projeções de pontos. A versão soft desses algoritmos considera conhecido a
priori o número de grupos, de modo que os subespaços são geralmente avaliados
em uma forma suave para o agrupamento, e todos os atributo são ponderados
e considerados na análise de agrupamento. Mais detalhes na Seção 3.5.
2) Algoritmos de agrupamento em subespaço encontram todos os grupos em todos os

subespaços. Identifica grupos em subespaços por similaridade ou dissimilaridade
entre as instâncias. Um escore anômalo para classificação significativa é
necessário no princı́pio de integrar as múltiplas visualizações, [Muller et al.
(2012)]. Mais detalhes na Seção 3.4.
3) Algoritmos de agrupamento de dados correlacionados realiza o agrupamento

de informações pareadas correlacionadas, . Para avaliar a significância do
agrupamento é usada uma medida de associação, [Sim et al. (2010a)]. Mais
detalhes na Seção 3.6 .
4) Algoritmos de agrupamento baseada em padrões (ou biclustering) é similar ao

agrupamento em subespaço. Agrupam as instâncias pela similaridade entre
atributos, e permite a sobreposição de grupos. No entanto, o agrupamento
baseada em padrões é mais flexı́vel se comparado ao agrupamento em subespaço,
ele pode agrupar os pontos com respeito aos atributos, ou com respeito as
instâncias ou com respeito a ambos, isto é, as instâncias e atributos são tratados
igualmente. Além disso a definida submatriz de instâncias e atributos exibi
um agrupamento baseado em um padrão.
5) Algoritmos de agrupamento hı́bridos, ao contrário de algoritmos de agrupamento

de subespaço, não desejam encontrar todos os possı́veis grupos. Ele encontra
grupos que se sobrepõem, e especı́ficos subespaços de interesse. Possuem a
capacidade de combinar diferentes técnicas de análise de agrupamento em
subespaços de tal forma que maximize a eficiência do algoritmo. Por exemplo,
pode combinar a versatilidade dos algoritmos hierárquicos com o baixo tempo
de execução e a baixa complexidade dos algoritmos particionados, [Murty e
Krishna (1980)].
Algumas das caracterı́sticas de algoritmos de análise de agrupamento em espaços

de altas dimensões, ver Tabela 3.1.
Os algoritmos de agrupamentos de dados tradicionais identificam os grupos em 2D,
e não são planejados para trabalharem com dados complexos, dados contaminados, e
30
Tabela 3.1: Relevantes caracterı́sticas dos algoritmos de análise de agrupamento em
espaços de altas dimensões. Adaptada de Sim et al. (2013).
Técnicas PD a Bb Cc Q d D e 3Df Sobreposição g
√ √ √ √ √ √ √
Em subespaços
√ √ √ √ √
De projeções
√ √ √
Em correlação
√ √ √ √ √
Em padrão
a
palavras de documentos
b
atributos binário
c
atributos categórico
d
atributos contı́nuo
e
atributos discreto
f
forma grupos em 3 dimensões
g
identifica grupos sobrepostos
sobreposições de grupos. É mais difı́cil conseguir resultados eficientes em dados em

3D se comparado a dados em 2D, [Sim et al. (2013)].
A seguir é dado uma ilustração de subespaços em 3D, ver Figura 3.3. O tempo t
neste contexto é uma sequência de caracteres que identificam quando um determinado
evento ocorre. Normalmente é dado a data e hora, às vezes com uma precisão de
uma pequena fração de um segundo.
Figura 3.2: Ilustração de subespaços em 3D. Adaptado de Sim et al. (2013)
Nas subseções a seguir são apresentados conceitos a respeito de detecção de

anomalias em subespaços; agrupamentos de dados: em subespaços, de projeções, e
dados correlacionados.
3.4 Deteção de anomalias em subespaços

A detecção de anomalias em subespaços é considerada ser uma tarefa não su-
pervisionada, por geralmente não se conhecer a priori os subespaços de atributos
relevantes, sendo que a busca por anomalias e por subespaços relevantes devem estar
relacionadas, [Kriegel et al. (2009)].
31
Supostamente qualquer algoritmo de agrupamento de dados em subespaço tratam
conjuntos de dados com anomalias e tem dificuldade em segmentar observações
quando os subespaços são próximos uns dos outros, [Soltanolkotabi et al. (2014)].
O agrupamento em subespaços consiste na formação de grupos em subespaços
considerando a similaridade ou dissimilaridade entre as instâncias. Um escore anômalo
é utilizado para a classificação significativa com o objetivo de integrar as múltiplas
visualizações, [Muller et al. (2012)].
Em análise de agrupamento em subespaço o critério de homogeneidade em grupos
categóricos é frequentemente relativo a identificação dos valores de cada atributo.
Se identificada alguma dissimilaridade nos atributos pode se usar, por exemplo, a
distância de Hamming ou ı́ndice de Jaccard, [Guha et al. (1999)] .
Para quantificar as distâncias entre os subespaços uma medida angular é con-
siderada, por serem ditas mais robustas se comparadas as medidas de distância
tradicionais.
As instâncias são agrupadas em regiões densas em subespaços unidimensionais,
enquanto que as anomalias são dispersas em espaços de dimensões altas. Em geral, o
desvio de instâncias é altamente influenciado pelo número de atributos considerados
por subespaço, [Müller et al. (2011)].
Uma solução ingênua é testar todos os possı́veis subespaços orientados arbitrari-
amente para realizar a análise de agrupamento. Obviamente, existem um número
infinito de subespaços orientados arbitrariamente, de modo que está solução ingênua
é computacionalmente inviável. Em vez disso, deve-se decidir com base em dimensões
individuais e agrega-lás a um subespaço de alta dimensão.
Em subespaços irrelevantes a vizinhança de uma instância é distribuı́da de forma
aleatória e uniforme de tal forma que todos as instâncias parecem ser anômalas.
Além disso, se a quantidade de atributos irrelevantes em um conjunto de dados
for grande, as anomalias podem facilmente serem mascaradas. Por outro lado, em
subespaços relevantes (ou projeções) à sua detecção é relativamente fácil, porém o
desafio é escolher o subespaço adequado, porque a relevância de um atributo está
relacionada a determinados subgrupos de instâncias de uma dada aplicação, [Müller
et al. (2011); Kriegel et al. (2010)].
As limitações em se detectar anomalias em subespaços se remete a: definir
um adequado limiar para classificação dos subespaços anômalos, definir o grau
de anormalidade de anomalias projetadas em diferentes subespaços anômalos, e
encontrar um algoritmo capaz de identificar eficientemente as k maiores anomalias
projetadas. Além do mais, cada instância, mesmo que se afaste substancialmente de
qualquer subespaços, é muito provável pertencer, a pelo menos, alguns grupos em
outras projeções. Assim, anomalias não são simplesmente instâncias não agrupadas.
A distância entre subespaços, a distribuição das instâncias em cada subespaço,
e o número de instâncias em cada subespaço afetam a eficiência dos algoritmos de
agrupamento em subespaços. Assim, nem sempre é possı́vel identificar corretamente
os grupos em subespaços de 3D, [Soltanolkotabi et al. (2014); Vidal (2010)].
A maioria dos métodos consideram a densidade da anomalia o, e a densidade da
sua vizinhança anômala no espaço de dados completo. O primeiro modelo proposto
para subespaços anômalos particionava o espaço de dados dentro de um grid de
células. Para uma única célula, um número esperado de pontos contaminados podem
32
ser calculados assumindo uma distribuição uniforme. Como os subespaços ou os
grupos podem ser vistos como grupos de células da grid densas, todos os pontos
contidos em células da grid esparsas esperadamente podem ser visto como anomalias,
[Kriegel et al. (2012); Müller et al. (2011); Hsu et al. (2004)].
3.4.1 Definição de subespaço

Seja Dn x p um conjunto de dados com n instâncias e p atributos. Um subespaço
S é um subconjunto de atributos formalmente definido por, [Vidal (2010)].
Si = o ∈ RDn x p : o = µi + Ui y (3.5)
em que µi ∈ RD n x p é um ponto arbitrário em subespaço Si para µi = 0 para

subespaços linear, Ui ∈ Dn x di é uma base para subespaço Si e y é uma representação
em baixa dimensão para pontos de o.
Cada subespaço S representa uma diferente visualização de Dn x p , e as medidas
de similaridade ou dissimilaridade são restritas a Di ∈ S, e a seleção de subespaços
relevantes para cada grupo ou anomalia é o principal objetivo de investigação, [Muller
et al.(2012)].
Em agrupamento em subespaço é necessário encontrar o número k de subespaços,
e às suas dimensões di ki=1 , às suas bases Ui ki=1 , os pontos µi ki=1 em casos de subespaços
afim, e a segmentação de pontos segundo o subespaço.
Os dado de referência estão próximos de uma união desconhecida de subespaços li-
neares, em que existem k subespaços S1 , S2 , · · · , Sk ∈ Rn com dimensões d1 , d2 , · · · , dk ,
respectivamente de tamanhos completamente desconhecidos, em que 0 < di < Dn x p
∀i = 1, · · · , k.
Quando se trata de apenas um subespaço, k = 1 o problema se reduz a encontrar
um vetor µ ∈ RDn x p ; uma base U ∈ Dn x d , e uma representação em baixa dimensão
Y = [y1 , · · · , yN ] ∈ RDd x n e a dimensão d. Esse problema é conhecido como PCA.
Para k > 1 o problema de agrupamento em subespaço é significativamente mais
complexo se comparado a tratar apenas um subespaço. As justificativas são dadas a
seguir, [Vidal (2010)].
1) Os dados podem ser distorcidos, por exemplo, na presença de anomalias, e de

entradas faltantes. Tais perturbações podem levar a equivocadas estimativas
de subespaços. Existem técnicas de estimação robusta para o caso de um único
subespaço, mas no caso de múltiplos subespaços não é bem compreendido.
2) A distribuição dos dados no interior dos subespaços é geralmente desconhecida. Se

os grupos forem homogêneos, e bem separados, então o problema é bem definido.
O que não se pode afirmar quando os grupos possuem formas arbitrárias e
diversos pontos próximos a intersecção de subespaços. Nesse caso, o problema
de agrupamento em subespaço torna-se mais difı́cil se comparado a trabalhar
com subespaços independentes.
3) Segmentação de dados e estimativa de modelo são intimamente relacionados.

Principalmente, se a segmentação dos dados é conhecida, pode-se ajustar
33
um único subespaço para cada grupo de pontos usando PCA padronizado.
Por outro lado, se os parâmetros dos subespaços forem conhecidos pode-se
encontrar os pontos que melhor se ajustem a cada subespaço. Na prática, nem
a segmentação dos dados e nem os parâmetros dos subespaços são conhecidos.
4) É necessário encontrar um critério que selecione um modelo que favoreça a um

pequeno número de subespaços de dimensões baixas.
Existem duas consequências em detectar anomalias em subespaço: a primeira é

que os escores apresentados pelos algoritmos não indicam uma clara separação entre
uma anomalia e uma instância de referência, ver seção 3.7. A segunda é que eles são
influenciados pelas distâncias que variam substancialmente ao longo de diferentes
dimensões.
As abordagens tem-se concentrado em criar diversos agrupamentos básicos e então
combinar-lós de uma forma a um único agrupamento unificado. Essas abordagens
diferem- se com respeito a: como criar diversidade, no sentido de combinar diferentes
subconjuntos de atributos, e como combinar diferentes grupos, no sentido de extrair
as correspondências entre diferentes soluções de agrupamento com o objetivo de
combina-lás. De um ponto de vista de agrupamento em subespaço, o problema de
correspondência em agrupamento ensemble é um tópico relevante como não existe
procedimento de avaliação automática adequado para análise em alta complexidade,
[He et al. (2005), Bertoni e Valentini (2006)].
A estrutura de detecção de anomalias em subespaços é descrita a seguir, [Lazarevic
e Kumar (2005); He et al. (2005)].
(1) Considere Dn x p .
(i) Para cada iteração t o algoritmo utiliza um subconjunto diferente atributos,

St , ∀t = 1, 2, · · · , T , em que apenas os St relevantes devem ser selecionados
como entrada.
(ii) Aplicar-se o algoritmo de detecção de anomalia Ht no subconjunto de
atributos St selecionado.
(iii) Usa-se uma função para combinar os T vetores de escores anômalos ASt
em um único vetor de escores anômalos final ASf inal , como segue:
ASf inal = combinar(ASt ), ∀t = 1, · · · , T
(iv) O ASf inal é usado para se atribuir uma probabilidade final de anormalidade
a cada instância da base de dados. Se ASt (i) > ASt (j) então a instância
oi tem maior probabilidade de ser anômala do que a instância oj .
(2) A saı́da do algoritmo de detecção de anomalia Ht é um vetor de escores anômalos

ASt , e ao final das T iterações teremos T vetores de escores anômalos cada um
correspondendo a um único algoritmo de detecção de anomalia.
(3) Cada algoritmo de detecção de anomalia resulta em um vetor de escores anômalos

ASt diferente na qual reflete a probabilidade de cada instância ser uma anomalia.
34
Após o cálculo do fator anômalo para cada instância em todos os subespaço de
entradas, em seguida são integrados os resultados de cada processo para obter o
resultado final. Nesta etapa, são utilizados alguns dos conceitos de aprendizagem
ensemble.
Pressupõem que os fatores anômalos das instâncias O ∈ Dn x p após a fusão de
todos os subespaços S1 , S2 , · · · , Sk de fatores anômalos, para os k subespaços de
entrada é dado por OF(o) = ⊕(S1 , S2 , · · · , Sk ), em que ⊕ é ooperador combinando.
Note que se k= 1, então temos ⊕(S1 , S2 , · · · , Sk ) = S1 .
Segue abaixo a descrição de alguns dos básicos operadores que são suficiente em
unificar pesquisas existentes em estrutura de detecção de anomalias em subespaços.
(i) Operador produto prod : ⊕(S1 , S2 , · · · , Sk ) = S1 S2 · · · Sk .

(ii) Operador adição Σ : ⊕(S1 , S2 , · · · , Sk ) = S1 + S2 + · · · + Sk .
(iii) A norma combinada Qq é uma generalização do operador adição com um adici-
1
onal número natural q. Qq (S1 , S2 , · · · , Sk ) = (S1q , S2q , · · · , Skq )( q ) . O operador
adição é um caso particular de Qq quando fixa-se q=1.
Uma versão limitante de normas Qq , denotada como Q∞ · Q∞ (S1 , S2 , · · · , Sk ) é defi-
nida ser igual a Si , em que Si tem o maior valor absoluto entre (S1 , S2 , · · · , Sk ).
Usualmente defini-se as anomalias usando as distâncias dimensionais comple-

tas entre os pontos no subespaço composto de todas as dimensões, ou seja, k=1,
⊕(S1 , S2 , · · · , Sk ) = S1 . Assim, é sempre direita a classificação dessas pesquisas a
qualquer um dos determinados operadores combinados, [He et al. (2005)].
3.4.2 Algoritmos de análise de agrupamento em subespaço

Em resumo, as técnicas de análise de agrupamento de subespaço são divididas
em quatro categorias: algoritmos algébricos, métodos iterativos, métodos estatı́sticos
e métodos baseados em agrupamento espectral, [Sim et al. (2013)].
1) Algoritmos algébricos são baseados em matrizes de fatoração que são aplicadas

apenas a subespaços independentes, ou a métodos baseados em álgebra poli-
nomial que são aplicáveis a qualquer tipo de subespaço. Por exemplo, PCA
generalizado - GPCA é uma método algébrico geométrico para agrupar dados
em subespaços lineares. GPCA é um algoritmo computacionalmente barato se
o tamanho da amostra n e a dimensão do subespaço d são ambos pequenos. Ele
bem trabalha com subespaços independentes e dependentes, e sobreposições
de subespaços. No caso dados livres de anomalias não é necessário estimar a
priori o número ou as dimensões dos subespaços.
2) Métodos iterativos é uma versão melhorada dos algoritmos algébricos. Dada uma
segmentação inicial pode-se ajustar um subespaço para cada grupo usando o
clássico PCA. Em seguida para cada subespaço pode-se atribuir a cada ponto
a seu subespaço mais próximo. Essas duas sequências são realizadas até que
ocorra a convergência. Tais conceitos são utilizados pelos algoritmos K-planos
e K-subespaços, nas quais são generalizações do algoritmo K-médias.
35
3) Métodos estatı́sticos assumem conhecida a distribuição dos dados nos subespaços,
como é feito, na mistura de probabilidade PCA - MPPCA , na compressão com
perdas aglomerativa (ALC), e no consenso de amostra aleatória - RANSAC.
MPPCA é uma mistura de Gaussianas que pode ser aplicada para subespaços
afins e lineares. É visto como uma versão probabilı́stica de K-subespaços, por
ambos serem simples e intuitivos e cada iteração pode ser calculada de forma
fechada utilizando probabilidade PCA - PPCA. ALC é robusto, e parte do
princı́pio que os dados foram gerados de uma mistura de Gaussianas degeneradas.
Por sua vez, RANSAC ajusta um modelo probabilı́stico e identifica as anomalias
na análise de resı́duos.
4) Métodos baseados em agrupamento espectral bem trabalham em alta dimensão. A
limitação este algoritmo está em definir uma boa matriz de proximidade, porque
duas instâncias podem estarem próximas mas podem pertencer a subespaços
distintos ou próximas a ocorrência de uma sobreposição de subespaços. Por
outro lado, dois pontos podem estar distantes, mas estarem no mesmo subespaço.
Consequentemente, usar as populares medidas de distâncias nesse caso é
inadequado.
Os métodos iterativos e algébricos procuram agrupar os dados em subespaços

usando de propriedades algébricas e geométricas. Essas abordagens podem tratar
dados contaminados, mas não fazem suposições explı́citas sobre a distribuição dos
dados nos subespaços ou sobre a distribuição das anomalias. Não fornecem estimativas
pautadas em uma teoria solida, como nas estimativas obtidas do método da máxima
verossimilhança.
A noção de proximidade entre subespaços veem do princı́pio de medida angular
0 0 0
dada por: θ(1) , · · · , θ(d∧d ) entre dois subespaços S e S de dimensão d e d , respecti-
vamente. É uma medida de correlação entre dois subespaços, com valores entre [0:1].
Uma correlação nula ocorre quando os subespaços são ortogonais, o que facilita a
análise de agrupamento. Por outro lado, quanto mais próximo a correlação estiver
do valor 1, mais difı́cil é a análise de agrupamento. A sobreposição de subespaços
ocorre quando a correlação é igual a 1.
3.5 Detecção de anomalias baseada em técnica de

projeção
Projeção aleatória ajusta um espaço de dados completo em um subespaço. É
usualmente um método computacionalmente barato que possui dimensionalidade
logarı́tmica com respeito a dimensão do espaço completo, de modo que as distâncias
pareadas entre os pontos antes e depois da projeção são alteradas apenas por um
pequeno fator. As projeções apresentam uma visão ótima dos dados projetados
podendo assim ter uma boa estimativa da densidade deles, além disso pode-se
encontrar direções cuja a distribuição dos dados é relevante, [Zhang e Brodley (2003)]
O processo de detecção de anomalias pode utilizar de uma única projeção ou de
múltiplos subespaços. As projeções do espaço de dados completo não estão ciente
de projeções individuais por subespaços. Uma projeção única falha em diferentes
36
visualizações dos dados, porque uma instância pode ser anômala ou não dependendo
do subespaço analisado. Em contraste uma única projeção aleatória, na análise de
agrupamento em subespaço detecta-se grupos em qualquer combinação possı́vel de
atributos, [Sim et al. (2012)].
3.5.1 Análise de componentes principais

A técnica de análise de componentes principais (PCA) resulta em uma matriz de
projeção com p componentes principais (autovetores), e consiste de um subespaço
linear de baixa dimensão. Cada componente principal é uma combinação linear dos
atributos originais que são mutuamente ortogonais entre si, nas quais descrevem a
variação do conjunto de dados original com p atributos altamente correlacionados, em
termos de k atributos descorrelacionados entre si, ∀ p e k ∈ Z, [Rousseeuw (2011)].
PCA é aplicado em conjunto de dados com atributos contı́nuos com o objetivo de
encontrar a direção de alta e baixa variabilidade dos pontos. Sendo que o primeiro
autovetor aponta para a direção de maior variância de Dn x p . O segundo autovetor
aponta para a direção da segunda maior variância em Dn x p perpendicular ao primeiro
autovetor. Assumindo que existem grupos altamente correlacionados em Dn x p , os
primeiros k autovetores abrangem hiperplano de dimensão k acomodando os pontos
de Dn x p . Os menores p − k autovetores definem um subespaço perpendicular ao
hiperplano, na qual acomodam os elementos do grupo. Os pontos projetados são
grupos otimamente densos, [Kriegel et al. (2009)].
Na prática é esperado que os primeiros componentes principais expliquem a
maior parte da variabilidade dos dados para que os demais componentes possam ser
descartados. De modo que o número de atributos a serem analisados seja reduzido,
permitindo assim uma melhor interpretação e entendimento da fonte de variação dos
dados.
A projeção do primeiro autovetor descreve a posição das instâncias dentro do
subespaço e a extensão da correlação do hiperplano. Enquanto, as projeções dos
p − k últimos autovetores descrevem o desvio do hiperplano que correspondem a
subespaços anômalos e/ou ruidosos.
Para resolver o problema da alta dimensão dos dados, as técnicas de agrupamento
em subespaços recorrer a duas alternativas: a redução de atributos ou a seleção de
atributos.
O PCA é o mais popular método para a redução de atributos, e as técnicas de
seleção de atributos não realizam transformações nos atributos, procedem selecionando
um subconjunto de atributos de modo que as instâncias seja homogêneas, buscam
pelo subespaço ótimo. Dividem-se em duas categorias: os modelos de wrapper e o
filtro.
PCA clássica não é robusta. Na presença de anomalias a variância do conjunto
de dados é inflada, de modo que não se captura a real variabilidade dos dados. Pode
se perder a interpretação após a redução de atributos, [Sim et al (2013)].
Existem duas formas de obter um PCA robusto: uma delas é substituir o estimador
clássico por um estimador robusto para a matriz de variâncias e covariâncias, e a
outra é maximizar as estimativas para obter direções consecutivas sob o qual os
pontos são projetados, ou seja, consiste de uma técnicas de projeção, como na
37
generalização de PCA - GPCA, [Croux (2007)].
A eficiência do PCA para a detecção de anomalias depende essencialmente da
escolha de um estimador para a matriz de variâncias e covariâncias que não sejam
sensı́veis a presença de anomalias nos dados. Uma proposta é o estimador de Mı́nima
Variância Generalizada (MGV) que busca por um centro robusto na nuvem de pontos.
É uma leve modificação da busca de projeção, [Hubert (2010)]; Finch et al. (2011)].
As instâncias podem ser classificadas como anômalas, de acordo com a estatı́stica
de teste baseada no MGV que é dada por,
V = M d + sqrt(χ2p,1− 1 )(q3 − q1 ),
α
em que Md é a mediana das distâncias da projeção, dij . Uma instância é

considerada ser anômala se o valor de dij é grande se comparado a estatı́stica de
teste, isto é, dij > V .
3.6 Detecção de anomalias em agrupamento de

atributos correlacionados
A maioria das abordagens existentes para detecção de anomalias implicitamente
assumem que todos os atributos são igualmente relevantes e não levam em conta a
correlação local para detectar anomalias. No entanto, vários atributos podem não ser
relevantes, no sentido de que não existe uma relação entre eles, o que acarreta a uma
distorçam nos cálculos de distâncias geralmente realizadas no espaço dimensional
completo. Desta forma, é mais viável realizar o agrupamento dos pontos considerando
apenas um subconjunto de atributos, [Vidal (2010); Kriegel et al. (2012)].
Neste cenário, determina-se a função que descreve a relação entre os atributos
definida pela vizinhança de o e avaliada pelo desvio de o à sua vizinhança no
subespaço perpendicular ao seu hiperplano. Esse procedimento medi como bem se
ajustou a anomalia ao hiperplano. Os pontos do subespaço que apresentam uma
correlação local estão localizados em um mesmo hiperplano 1 de dimensão δ, em
que δ 6 p. Na Figura 3.3 é mostrado três hiperplanos e seus respectivos espaços
perpendiculares.
Temos que as instâncias n1 e n2 foram geradas pelos mecanismo 2 e mecanismo
1, respectivamente, ver Figura e, assim, não deverão ser rotuladas como anomalias;
essas instâncias bem se ajustam perfeitamente com os mecanismos que geraram os
casos de referência. Na literatura Estatı́stica, é dito que n1 e n2 são pontos não
influentes, pois não alteram as estimadas dos parâmetros de seus respectivos modelos
ajustados. Ao contrário das instâncias n1 e n2 , as instâncias o1 , o2 e o3 são anômalas,
porque elas se desviam significativamente de qualquer um dos hiperplanos propostos.
Na Figura 3.4 nota-se que as anomalias somente são identificadas quando projeta-
se os pontos do hiperplano a um subespaços perpendicular a ele. Contudo, nesse
cenário, as abordagens usuais de detecção de anomalias podem apresentar altas
taxas de falsos positivos e falsos negativos, porque elas não são capazes de considerar
quaisquer correlação local.
1
Hiperplano é um subespaço de dimensão p − 1. No caso, dos espaços bidimensional e tridimen-
38
Figura 3.3: Projeções em subespaços. Adaptado de Kriegel, Kröger e Zimek (2009)
Figura 3.4: A ideia geral de como identificar anomalias em subespaços de atributos

originais por meio de um subespaço ortogonal. Adaptado de Kriegel et al. (2012)
O centroide de um grupo correlacionado é um par de instâncias fortemente corre-

lacionadas, e para cada centroide, outros centroides são avidamente e iterativamente
adicionados a ele para criar grupos em subespaço. Um centroide é adicionado ao
agrupamento de subespaço se conduzir a um aumento de informações de correlação.
Essa iteração continua até que não tenha mais aumento de informações de correlação,
[Sim et al. (2013)].
O algoritmo de agrupamento de atributos correlacionados não requer de esti-
mativas de parâmetros para à sua execução. Ao contrário dos demais métodos de
agrupamento em subespaço, também não são necessários limiares para determinar se
a informação de correlação de um subespaço agrupado é alta ou não. Basta fornecer
o nı́vel de significância, α que é comparado com nı́vel de significância do teste, o
p-valor; para se inferir a respeito da significância da correlação entre as instâncias
pareadas.
sionais, os hiperplanos são uma reta e um plano, respectivamente.
39
3.7 Escores anômalos
Nesta seção são apresentados alguns conceitos a respeito de escores anômalos.
Existem duas possı́veis saı́das para um algoritmos de detecção de anomalias: um
escore que indica o grau de anormalidade de uma instância, ou um escore binário
que rotula as saı́das como anormal ou não, [Amer (2011)].
3.7.1 Regularização e normalização e interpretação de esco-

res anômalos
Primeiramente, o processo de detecção de anomalias é um problema de dados
desbalanceados, porque a presença de uma anomalia é considerada rara.
Os escores são significantes apenas para as instâncias localizadas no topo, os
escores das instâncias de referência usualmente não variam muito. Eles frequente-
mente têm um significado que pode até indicar que não existe a presença de anomalia
em um dado conjunto de dados. Como usualmente pouco se conhece a respeito
dos verdadeiros escores e de suas distribuições a normalização das classificações é
recomendada, [Schubert et al. (2012)].
Uma recente proposta é o algoritmo ABOD que considera uma medida angular
entre uma instância de consulta e os demais pontos pareados. Seus resultados
são interpretados da seguinte forma: se os escores obtidos são altos indica baixa
anormalidade. Usualmente considera conhecida a quantidade de anomalias presentes
na base de dados, ou seja, adota-se um topo k de anomalias. No entanto, é pouco
provável se conhecer a priori a quantidade de anomalias presentes em um conjunto
de dados, especialmente se não existe uma clara distinção entre os escores anômalos
e os escores das instâncias de referência, [Schubert et al. (2012)].
Outra proposta é o escore OutRank que indica o grau de anormalidade de cada
instância, escore(oi ) ∈ [0:1]. A interpretação dada para seus escore é da forma que um
valor de escore(oi ) próximo de 1 indica provável ponto de referência, e quanto mais
próximo de zero for o valor de escore(oi ) mais provável indı́cios de que a instância é
anômala, [Muller et al.(2012)].
Assim como não existe uma definição geral válida do que se constitui uma
anomalia, também não existe uma única interpretação para um vetor de escores
anômalos. Assim, a transformação dependerá do tipo de escore. Por exemplo, os
escores obtidos na aplicação das técnicas LOF e LDOF apresentam similares sentidos,
assim tais escores podem ser transformados utilizando de similares funções. No
entanto, a interpretação de seus escores tem uma pequena variação, como segue,
[Kriegel et al. (2011)]:
1. O LOF e suas variações apresentam valor esperado para os escores das instâncias
de referência igual a 1, isto é, baseLOF = 1.
2. O LDOF apresenta valor esperado para os escores das instâncias de referência
igual a 12 , isto é, baseLDOF = 21 .
Em ambos os casos acima o valor esperado para um escore anômalo é estritamente
maior que o valor da sua base. O intervalo dos valores dos escores anômalos para
estas técnicas varia do valor de base até o infinito, isto é, [base, ∞).
40
Unificar escores anômalos
A razão pelo qual se realiza um reescalonamento de escores anômalos é com
o objetivo de obter um significante contraste entre os escores das instâncias de
referência e os escores das anomalias, de modo que facilite a identificação de instância
anômala. Considera-se a ideia da definição dada por Hawkins (1980) para uma
anomalia, ver Seção 1.1.
Busca-se por uma estrutura geral para a regularização e a normalização de um
escore anômalo, nas quais ambas podem ser usadas para aumentar o contraste entre
os escores das instâncias de referência e os escores das anomalias.
Seja S(o) o escore anômalo regular da instância o. O processo de escore unificado,
nas quais podem ser opcionais dependendo dos escores S é formado por dois passos,
descrito a seguir:
1. Regularização - Reg: que consiste de transformar um escore S para assumir

valores entre [0, ∞). Interpretado como segue,
• Para instâncias de referência admite-se Reg S(o) ≈ 0;

• Para anomalias admite-se Reg S(o) 0.
2. Uma transformação normaliza um escore para variar no intervalo entre [0:1].
Uma simples transformação linear pode regularizar esses escores. Algumas

sugestões de transformações são apresentadas a seguir.
Transformação linear
A diferença entre o valor observado S(o) e o valor de baseS resulta na trans-
formação de valores variando de [baseS , ∞) para [0, ∞),
RegSbaseS := max{0, S(o) − baseS } (3.6)

em que baseS é o valor esperado para os escores das instâncias de referência,
[Kriegel et al. (2011)].
Inversão linear
Pressupondo que os escores anômalos seguem uma distribuição Gaussiana tem-
se que os escores das instâncias de referência estão localizados em regiões de alta
densidade de pontos, e os escores das anomalias estão localizados em regiões de baixa
densidade de pontos, [Kriegel et al. (2011)].
Para regularização de tais escores é necessário realizar uma transformação inversa.
Neste caso, realiza-se a diferença entre o escore observado S(o) e o escore máximo
possı́vel Smax .
RegSlininv (o) := Smax − S(o), (3.7)

em que Smax > S(o).
41
Normalização
A diferença entre o valor observado de S(o) e o mı́nimo de S(o) dividido pela
diferença entre o máximo de S(o) e o mı́nimo de S(o) é uma formação linear
simples que transformar valores númericos para o intervalo de valores entre [0:1].
Formalmente,
S(o) − S(o)min
N ormlinear
S := (3.8)
S(o)max − S(o)min
As três transformações lineares apresentadas acima, não são adequadas para
escores anômalos que apresentam muito baixo contraste, de modo que não aumentam
significativamente o contraste entre os escores das instâncias de referência e os escores
das anomalias. A seguir é apresentada, um exemplo, de uma transformação que
aumenta esse contraste.
Transformar os escores anômalos obtidos de múltiplos algoritmos de detecção de
anomalias para o intervalo de valores entre [0:1] não fornece um sentido unificado
desses escores, porque cada modelo para a detecção de anomalias é especı́fico. No en-
tanto, o nı́vel de unificação gerados pelas transformações melhoram a comparabilidade
das decisões dos diferentes abordagens, [Kriegel et al. (2011)].
Função logaritı́mica
A função logaritı́mica é monotona. A função é dada por,
S(o)
RegSloginv (o) := −log( ) (3.9)
Smax
em que Smax é finito e S(o) > 0 , ∀o, e RegSloginv (o) é estável.

Esta regularização pode aumentar significativamente o contraste entre os escores
das instâncias de referência e os escores das anomalias. Um exemplo de um algoritmo
que apresenta escores anômalos com muito baixo contraste é o ABOD.
Para aumentar o contraste entre escores instâncias de referência e escores anômalos
são sugeridos também métodos estatı́sticos de escala, nas quais fornecem uma
interpretabilidade probabilı́stica dos escores regularizados.
3.7.2 Propostas de Regularizações para diferentes tipos de

escores
Nesta seção são apresentadas algumas promissoras propostas para regularizar
escores anômalos de um ponto de vista estatı́stico, [Kriegel et al. (2011)].
Escalonamento estatı́stico de escore anômalo

A distribuição dos escore anômalos usualmente é complexa e difı́cil de ser com-
preendida. Em particular quando pressupõe-se que um conjunto de dados foi gerado
por uma mistura de diferentes mecânismos, uma simples análise analı́tica é inviável.
42
Pode-se admitir que as transformações lineares apresentadas na Seção 3.7.1
pressupõem que os escores anômalos seguem uma distribuição uniforme. Mas a fim
de evitar superajuste é recomendado o uso de uma função distribuição primitiva
com limitado grau de liberdade. Destaca-se que a pressuposição é com respeito a
distribuição dos escores, e não com relação a distribuição do conjunto de dados, na
qual não se admite-se nada a respeito de sua distribuição.
Segundo Kriegel et al. (2011) qualquer função de distribuição pode ser utilizada
para este fim dependendo da qualidade do ajuste dos escores anômalos a prosposta
distribuição. Neste artigo é mostrado experimentalmente que a seleção arbitrária de
uma distribuição já oferece um desempenho melhorado significativo.
Por exemplo a distribuição Cauchy e a distribuição F são boas opções para as
funções escores que constituem de uma proporção obtidos dos algoritmos LOF e
LDOF.
Escala em distribuição Gaussiana

Pelo Teorema do Limite Central a mais geral distribuição para uma grande
quantidade de valores obtidos de uma mesma população é a distribuição normal.
Uma proposta é utilizar a função distribuição acumulada que é não decrescente, e
a função do erro Gausssiano, erf() para transformar os escores anômalos em valores
de probabilidade. Formalmente,
S(o) − µs
N ormgauss
S (o) := max{0, erf ( √ )} (3.10)
σs 2
em que µS é a média, e σS é o desvio padrão dos escores anômalos S.
A função de erro Gaussiano é monotona, e sua classificação é instável.
Z x
2 2
erf (x) = √ −t dt (3.11)
π 0
A regularização linear da função distribuição acumulada apresenta mesmos

resultados que a N ormgauss
S (o), dada por:
1 S(o) − µs
cdfSgauss (o) := (1 + erf ( √ )). (3.12)
2 σs 2
cdfSgauss (o) − µcdf

N ormgauss
S (o) := max{0, } (3.13)
maxcdf − µcdf
Escala em distribuição Gama

Supor de uma distribuição Gaussiana para altas dimensões é uma adequada
proposta. No caso, de baixa dimensão os histogramas dos resultados obtidos das
técnicas kNN e LOF se aproximam a forma da função de densidade de probabilidade
43
da Gama. Vale destacar que a Distribuição Gama é um modelo complexo, ou
seja podemos obter demais distribuições de probabilidade a partir dela dependendo
dos valores de seus parâmetros, por exemplo podemos obter a distribuição χ2 e a
distribuição exponencial a partir dela. A normalização é dada por,
cdfSgamma (o) − µcdf

N ormgamma
S (o) := max{0, }, (3.14)
1 − µcdf
em que µcdf = cdfSgamma (µS ). Para função de densidade de probabilidade acumu-

lada definida por,
γ(k, S(o) ) S(o)

cdfSgamma (o) := θ
= P (k, ) (3.15)
Γ(k) θ
em que P é a distibuição Gama regularizada.
3.7.3 Transformação de escore anômalo em probabilidade

A transformação de um escore para uma estimativa de probabilidade é uma
proposta viável por dois motivos: as estimativas de probabilidade garantem maior
confiança para a seleção do limiar na detecção de anomalias quando se usa um modelo
de risco Bayesiano, e as estimativas de probabilidade obtidas a partir de algoritmos
individuais podem ser combinadas para construir uma estrutura de detecção de
anomalias ensemble, [Gao e Tan (2006)].
O método de calibração (funções sigmóide ou modelo de mistura) para transformar
escore anômalo em probabilidades pode ser paramétricos ou não paramétricos, ver
Seção 2.3. Tal técnica pode ser utilizada em diferentes vetores de escores anômalos,
e então depois combinar essas probabilidades estimadas.
A regressão logı́stica é um método amplamente utilizado para transformar saı́das
de classificação em estimativas de probabilidade.
O ajuste da função sigmóide e do modelo de mistura é bastante instável, usa o
algoritmo generalizados EM. Além, eles favorecem valores extremos 0, 1, o que não é
favorável para a combinação, [Kriegel et al. (2011)].
Converter um escore anômalos em um cenário não supervisionado é difı́cil, porque
não existem exemplos disponı́veis rotulados. Assim, supõem-se que o conjunto de
dados apresenta naturalmente duas classes: os anômalos e os de referência, e a
probabilidade estimada de oi ser uma anômala é dada por P (O = oi /fi ) = pi , e a
probabilidade de oi ser um ponto de referência é dado por P (M = oi /fi ) = 1 − pi
dado o escore anômalo, fi .
Aplicando o teorema de Bayes, tem-se que a probabilidade a posteriori do modelo
sigmoide é,
P (fi /O)P (O) 1
P (O/fi ) = = (3.16)
P (fi /O)P (O) + P (fi /M )P (M ) 1 + exp(−Σi )

p(fi /O)P (O)
em que Σi = log p(f i /M )P (M )
.
44
Considere uma distribuição Gaussiana com matriz de variâncias e covariâncias Σi
que pode ser expressa como uma função linear, Σi = Afi + B. De tal forma que,
1
pi = P (O/fi ) = (3.17)
1 + exp(−Afi − B)
Precisamos encontrar estimativas para os parâmetros A e B. Seja ti a quantidade

de anomalias observadas.
(
1, oi ∈ O
ti := (3.18)
0, cc
em que O é a classe de anomalias, e ti é uma variável aleatória binária com distribuição

de Bernoulli com probabilidade de sucesso p.
A distribuição de probabilidade de ti é dada por
p(ti /fi ) = ptii (1 − pi )1−ti (3.19)
Para obtermos as estimativas para os parâmetros A e B. Basta aplicar o método

de máxima verossimilhança, e em seguida substituir o valor estimado para pi na
equação p(ti /fi ) , [Gao e Tan (2006)].
3.7.4 Abordagens Anomalias Ensemble

Na teoria ensemble dois métodos de combinação tem sido discutidos, denominados
de busca em largura e soma cumulada. O método de busca em largura é puramente
baseado na classificação das instâncias fornecidas pelos diferentes detectores. A
abordagem de soma cumulada fornece a soma das classificações obtidas diferentes
métodos para detectar anômalias para cada instância e re-classifica as instâncias de
acordo com esta novo escore.
A estrutura para a combinação de diferentes algoritmos na verdade, esta é
questionável para a abordagem de soma cumulada. No caso do método de busca em
largura não comparar diferentes escores anômalos, a soma cumulada não é adequada
para combinar vários escores de muito diferentes escalas. Uma opção melhoras é
dada Gao e Tan (2006), apresentada na Seção 3.7.3.
Nas abordagens semi supervisionadas e supervisionadas atribui-se pesos de acordo
com o conhecimento de anomalia referente a um determinado estudo. No caso, das
abordagens não supervisionadas, por exemplo pode se considerar a união dos topos
k dos escores anômalos obtidos de diferentes métodos como verdadeiras anomalias.
Mas, para um cenário não supervisionado, uma combinação não ponderada ainda
deve ser admissı́vel.
O trabalho realizado por Schubert et al. (2012) é dito ser o primeiro a considerar
similaridade ou a correlação entre dois vetores de escores anômalos, na qual é um
passo importante na construção de detecção de anomalia ensemble. No entanto, não
é considerado tais conceitos no processo de detecção de anomalia ensemble devido
45
à escassa quantidade de medidas disponı́veis para descrever a correlação entre os
métodos.
As medidas de similaridade de postos, por exemplo coeficiente de correlação de
Spearman, ρ e o τ de Kendall, γ de Kruskal’s que é uma versão alterada do τ de
Kendall para observações com empates. Essas medidas de correlação assumem que
as classificações são igualmente significantes.
Considerar a taxa de verdadeiros positivos para o intervalo de valores de escores
superiores, ou seja, o topo k é uma tarefa ingenua por causa da natureza desbalanceada
do problema. Uma proposta é comparar dois vetores de escores anômalos usando
de uma função de distância, por exemplo usar uma adequada função de distância
ponderada. No entanto não é claro como se pondera adequadamente a relação de
ordem em problemas desbalanceados. Além disso a seleção da função de distância
depende do problema proposto, [Schubert et al. (2012)].
Quando se atribuı́ pesos a uma medida, seja ela, a uma função de distância, ou a
custos lineares, ou a erros quadráticos, ou a medidas de correlação. Podemos então
trabalhar com dados desbalanceados.
Duas condições básicas para um ensemble, de modo que melhore o desempenho
de classificadores básicos considerados são: (i) precisão, na qual se espera que seja
melhor do que a dos aleatórios, e (ii) diversificação, ou seja, seja capaz de fazer erros
diferentes em novas instâncias.
A contribuição da teoria ensemble não é significativamente útil em casos em que
vários classificadores individuais não são distintos. Por outro lado, se os classificadores
produzem erros descorrelacionados, mais classificadores individuais são adequados
enquanto poucos classificadores individuais são inadequados.
Cada membro do ensemble deverá ser individualmente significante em algum
sentido de modo que se consiga resultados significantes se não estiver em uma
estrutura ensemble. Por essa razão é importante na construção de um ensemble
considerar membros ensemble que resultem em erros descorrelacionados. Por exemplo,
se analisar um ensemble de diversos LOF executados com diferentes k pode-se obter
um conjunto insatisfatório se os resultados são altamente correlacionados. Por outro
lado, a abordagem Feature Bagging conduz resultados bem descorrelacionados.
Na próxima seção será apresentado um exemplo de um escore para conjuntos de
dados mistos, o escore ODMAD.
3.7.5 Escore ODMAD

A busca por padrões frequentes é o método mais utilizado para tratar atributos
categóricos, também frequentemente utilizada para parte categórica de conjuntos de
dados misto.
O escore ODMAD combina a busca de frequência de atributos categóricos com o
fator cosseno para os atributos numéricos. O escore ODMAD divide o espaço em
dois subespaços, de tal forma que um subespaço comporta os atributos categóricos e
o outro os atributos numéricos, e a soma dos escores calculados para cada subespaço
compõem o escore ODMAD para dados misto, [ Murthy et al. (2013) ].
O escore para o subespaço categórico é formulado como segue:
46
M AXLEN
X 1
Escore(oi ) = (3.20)
sup(IF (oi )) ∗ |IF (oi )|
|IF (oi )|=1
em que MAXLEN é o número máximo de frequências do conjunto de itens dado

pelo usuário, sup(IF (oi )) é o suporte de conjuntos de itens raros na instância oi , e
|IF (oi )| é o comprimento do conjunto de itens raros na instância oi .
O escore para o subespaço numérico é dada por,
1 X
Escore(oi ) = COS(oN
i , µa ) (3.21)
|a ∈ oC
i | C ∀a∈oi
mN
X 1 µ
COS(oN
i , µa ) = ∗ aj (3.22)
N
o µa
j=1 ij
em que a é um valor categórico incluı́do na instância oi .

Para m atributos categórico e n atributos numéricos em um conjunto de dados,
temos que:
m
X sup(oij )
EscoreC (oi ) = (3.23)
j=1
|D|
hµoiN , oN i
EscoreN (oi ) = (3.24)
kµoiN k ∗ koN k
em que escoreN (oi ) = COSN (oi ), µoiN é um vetor de médias de todos os atributos
numéricos, e oiN são todos os valores assumidos pela i-ésima instância referentes aos
atributos numéricos.
O fator MAOF é dado por,
EscoreC (oi ) + EscoreN (oi )

M AOFescore (oi ) = . (3.25)
2

Neste capı́tulo foi apresentado uma visão não tradicional de análise de agru-
pamento que procura solucionar o problema da alta dimensionalidade dos dados.
As abordagens apresentadas neste capı́tulo trabalham em subespaços ao invés de
trabalharem com o espaço completo dos dados. O conceito de subespaço viabiliza a
identificação da anomalias em uma visão mais detalhada que facilita a interpretação
de anomalias. A introdução a respeito de anomalia local mostrou que para conjuntos
de dados gerados por diferentes mecanismos buscar por anomalias locais é a melhor
opção. A limitação dessa proposta é identificar uma vizinhança adequada para se
detectar anomalias. Os escores anômalos precisam ser regularizados e normalizados
para que seja possı́vel combina-lós, e então se obter um resultado final confiável para
se inferir com relação a anômalias nos dados.
47
Capı́tulo 4
Experimentos Preliminares
Este capı́tulo apresenta os experimentos preliminares realizados até o momento.

Na Seção 4.1 são descritas as caracterı́sticas de seis conjuntos de dados em termos de
seus atributos e sua instâncias. Nas Seções 4.2 , 4.3, 4.4, 4.5, 4.6, 4.7 são apresentadas
às análises realizadas da aplicação dos algoritmos: DBSCAN, K medóides e Modelo de
Mistura Robusto para diferentes tipos de conjuntos de dados. Por fim são resumidos
os resultados obtidos das execuções de cada algoritmo na Seção 4.8.
Para cada conjunto de dados foi inicialmente estimado o número de grupo para a
execução dos algoritmos pelo gráfico scarpa (em inglês screen plot). Para análise
do kernel foi aplicado: um o algoritmo de análise de caracterı́sticas de kernels para
extrair a estrutura do conjuntos de dados. Esse algoritmo bem trabalha em espaços
de altas dimensões, e é similar a técnica de kernels PCA. As funções do kernel
eficientemente calculam os componentes principais em um espaço de caracterı́sticas
de alta dimensão, relacionado com o espaço de entrada por algum mapeamento
não-linear.
Os algoritmos utilizados são conceitualmente distintos, mas são a base dos algorit-
mos de análise de agrupamentos. Os três algoritmos aplicados neste experimento são
robustos: o algoritmo K medoides que é uma versão robusta do K-médias; o algoritmo
DBSCAN que é baseado na conectividade da densidade dos pontos, e o agrupamento
de um modelo de misturas de Gaussianas que utiliza de estimadores robustos para
o parâmetro de locação e o parâmetro de escala, que consistem de uma mediana
espacial, de uma matriz de covariâncias espacial - MRCM, respectivamente. MRCM
é estimada pelo desvio absoluto mediano (MAD). A região anômala é construı́da
baseada nos conceitos da distâncias de Mahalanobis.
A eficiência dos algoritmos de detecção de anomalia foram avaliados pelas quanti-
dades de verdadeiros positivos e falsos positivos, [ Zhang et al. (2007)].
4.1 Conjuntos de Dados Analisados

Os dados utilizados neste experimento são comumente utilizados na literatura,
para testar e comparar diferentes métodos de detecção de anomalias. Os conjuntos
de dados podem ser encontrados no repositório de aprendizagem de máquinas UCI
KDD; e alguma de suas caracterı́sticas estão descritas na Tabela 4.1.
48
Tabela 4.1: Caracterı́sticas dos conjuntos de dados utilizados
Dados Na Bb Cc M d CLe Distribuição das CL (%)
Câncer de mama 699 09 02 34.48 / 65.52
Spam 4601 57 02 39.40/60.59
Musk 476 166 02 42.99 / 57.00
Promotergene 106 57 02 50.00 / 50.00
Ionosfera 351 02 32 02 35.90/ 64.10
Linfografia 148 09 09 01 04 1/55/41/3
a
Quantidade de instâncias
b
Quantidade de atributos binário
c
Quantidade de atributos categórico
d
Quantidade de atributos numérico
e
Quantidade de classes
4.2 Análise do conjunto de dados de Câncer de

Mama Wisconsin
O conjunto de dados de Câncer de Mama Wisconsin contém 699 instâncias, e 9
atributos, além de um rótulo que indica o diagnóstico da doença. Temos que 458
(65.5%) instâncias foram rotuladas como benigno e 241(34.5%) foram rotuladas como
maligno. Os atributos foram obtidos de uma imagem digitalizada de uma aspirada
agulha fina (PAAF) de uma massa de mama, na qual descrevem as caracterı́sticas dos
núcleos celulares presentes na imagem. Os 9 atributos assumem os nı́veis categóricos
de 1 a 10.
Para a detecção de anomalias foi seguido o planejamento de experimento dado
por Harkins et al. (2002), que consiste em remover algumas das instâncias anômalas
para formar uma base de dados com uma distribuição desbalanceada, e excluı́ as
16 instâncias com informações faltantes, de modo que restaram um total de 683
instâncias. Para desbalancear os dados a cada seis instâncias maligna uma foi
selecionada o resultado obtido foi uma amostra de 39 (8%) instâncias maligna, que
foram unidas às 444 (92%) instâncias benigna, [Harkins et al. (2002); He et al.
(2005); Willams et al. (2002)].
Os resultados mostraram que sem a inserção de anomalias, as instâncias da
classe maligna, e sem considerar um número mı́nimo de pontos a priori, o algoritmo
DBSCAN tende a considerar que cada ponto forma um grupo. Nas demais análise o
algoritmo DBSCAN identificou as quantidade exatas de instâncias malignas inseridas
em 100% dos casos, devido os dados formarem grupos bem separados. No entanto, a
medida que a quantidade estimada para o número mı́nimo de elementos por grupo
aumentava à sua acurácia diminua, por ser um algoritmo muito sensı́vel a estimativa
de seus parâmetros, ver Tabela 4.5 e Seção 2.4.2.
Para as análise de 10%, 18%, e 36% de malignos inseridos de um total de 39
instâncias no conjunto de dados de benignos obteve-se que o algoritmo K medóides
foi incapaz de identificar a presença de tais instâncias, apresentando assim igualmente
nos três casos a acurácia de 29.5 %. Nos casos, em que as quantidades de malignos
49
inseridas esteve entre 54% a 100% de um total de 39 instâncias, as predições corretas
variaram de 95% a 90%, e as acurácias obtidas foram de 96.5% a 90%, respectivamente,
ver Tabela 4.6.
O agrupamento de modelos Gaussianos robusto foi capaz de identificar todos os
casos malignos inseridos em cada iteração, e à sua acurácia variou entre 90% a 93%.
No entanto, uma limitação desse algoritmo é que apresenta uma alta taxa de falsos
positivos, ou seja, indica muito mais instâncias anômalas do que realmente estão
presentes na base de dados, ver Tabela 4.7.
A Figura 4.1 apresenta a eficiência dos três métodos utilizados para a base de
dados de Câncer de Mama Wisconsin desbalanceada com 39 casos malignos e 444
casos benignos. A estimativa do kernels dos dados foi analisada, nesta análise nota-se
que a formação de dois grupos, tendo poucos pontos de distintas classes misturadas.
Figura 4.1: Gráfico da Curva ROC referente aos modelos DBSCAN, K medoids,
Robusto EM para os dados mama. Projeção do conjunto de dados de Câncer de
Mama Wisconsin em kernel de dois componentes principais usando um kernel de
função de base radial Gaussiana.
4.3 Análise do conjunto de dados de Spam

O conjunto de dados Spam é formado por 4601 e-mails, sendo que 1813 (39.4%)
foram rotulados como spam, e 2788 (60.6 %) foram rotulados como não spam, e um
total de 57 atributos que indicam a frequência de certas palavras e caracterı́sticas
desses e-mails, excluindo a classe deles. Os dados foram obtidos nos laboratórios de
Hewlett Packard.
Este estudo têm-se uma quantidade relativamente grande de instâncias, e nesse
caso frequentemente os algoritmos de agrupamento de dados tradicionais não apre-
sentam desempenhos satisfatórios.
O algoritmo DBSCAN mostrou-se eficiente para análises com estimativas de
número mı́nimo de elementos por grupo até 73 pontos, acima deste valor o seu
desempenho foi ineficiente, ver Tabela 4.5.
Na execução do algoritmo K medóides notou-se que as menores quantidades de
acertos foram obtidas quando se analisou baixas porcentagens de instâncias spans
50
inseridas de um total de 1813 instâncias. Nos casos de porcentagens de 97% e 100%
em ambos os casos obteve 72% de identificações corretas com respeito a presença de
anomalias, ver Tabela 4.6. O agrupamento de modelos Gaussianos robusto apresentou
um alto custo computacional, o que inviabilizou à sua aplicação em todas as análises.
Considerou-se uma amostra de 4000 instâncias para a construção do kernel
dos dados. Nesta análise observou que poucos pontos estão dispersos da forma
caracterı́stica desse kernel, ver Figura 4.2 .
Figura 4.2: Gráfico da Curva ROC referente aos modelos DBSCAN, K medóides,
Robusto EM para os dados Spam.Projeção dos dados spam em kernel de dois
componentes principais usando um kernel função de base radial.
4.4 Análise do conjunto de dados de Musk

O conjunto de dados Musk é formado por 476 instâncias. As instâncias foram
classificadas por especialistas humanos como 207 (43.5%) instância como musk, e as
demais 269 (56.5 %) instâncias como não musk. Esses dados contém um total de 167
atributos que descrevem a geometria das moléculas. Neste estudo a anomalia é a
presença de musk no conjunto de dados.
O algoritmo DBSCAN nesta aplicação, em todas as análises realizadas se mostrou
ineficiente, devido a grande quantidade de atributos analisados.
O algoritmo K medóides apresentou a menor quantidade de acerto (27%) nas
análises com as porcentagens de musk inseridas de 36% e 97 %. No caso em que a
porcentagem de anomalia é de 207 (100%) apresentou seu melhor desempenho que é
de 72% de acertos, ver Tabela 4.6.
Os resultados apresentados pelo modelo de mistura de Gaussianas foram ineficiente
com porcentagens de acerto em torno de 40%, além de uma alta taxa de falsos
positivos, ver Tabela 4.7.
51
A eficiência dos três algoritmos utilizados neste estudo, para o caso de um sexto
do total das anomalias inseridas na base de dados, ver Figura 4.3.
Robusto EM para os dados Musk.
Como se esperava os três métodos apresentaram desempenhos ineficientes, no

geral, quando aplicados em conjuntos de dados com alta dimensão.
4.5 Análise do conjunto de dados Promotergene

O conjunto de dados Promotergene contêm sequências de DNAs de genes pro-
motores (+) e de genes não promotores (-) organizadas em 106 instâncias e 57
atributos, excluindo a classe. A quantidade presente de cada uma das duas classes
no conjunto de dados é de exatamente 50%. Todos os 57 atributos assumem quatro
nı́veis: ”a”,”c”,”g”,”t”. Neste estudo a classe não promotores foi adotada como
anômala.
A estimativa do kernel dos dados apresenta uma forma esférica homogênea com
poucos pontos dispersos e nota-se sobreposição de pontos de classes, ver Figura 4.4.
Tabela 4.2: Resultos referente ao conjunto de dados Promotergene

Métodos
a b
V A DBSCAN K medoides Modelo de mistura
3 3 0 (0.5) 3 (0.77) 1 (0.44)
5 6 0 (0.50) 3 ( 0.57) 3 (0.57)
10 6 0 (0.50)
15 6 0 (0.50)
20 9 0 (0.50) 6 (0.61) 6 (0.45)
a
Porcentagem mı́nima de instâncias por grupo ou com maiores fatores
anômalos.
b
Quantidade de anomalias inseridas no conjunto de dados.
52
Robusto EM para os dados Promotergene. Projeção dos dados Promotergene em
duas caracterı́sticas usando kernel da função de base radial Gaussiana
Neste estudo, o algoritmo K medoides apresentou o melhor desempenho se

comparado aos algoritmos DBSCAN, devido o grupo ter uma forma esférica e
apresentar pontos nas fronteiras, ver Figura 4.4 e Tabela 4.2. O problema neste caso
é a limitação do algoritmos DBSCAN em tratar casos de pontos nas proximidades
dos grupos, [Karatzoglou et al. (2004)].
Apesar de tanto o modelo de mistura de Gaussiano robusto como o K medoides
pressuporem que os elementos de um grupo foram gerados por um modelo multivari-
ado Gaussiano, assim a forma dos grupos é convexa. Além disso, o modelo de mistura
considera a distância de Mahalanobis como um limiar de separação das classes, o
que não é uma medida robusta, o que o leva a apresentar grandes quantidades de
falsos positivos.
4.6 Análise do conjunto de dados de Ionosfera

O conjunto de dados Ionosfera consiste de dados de radar coletados por um
sistema em Goose Bay, Labrador. Esse sistema é composto de uma matriz faseada
de 16 antenas de alta frequência com potência total de transmissão na ordem de
6.4 quilowatts. Nos elétrons livres na ionosfera são considerados os radares bons,
em que há evidências de algum tipo de estrutura na ionosfera. Ao contrário, dos
radares ruins que não há evidências de estrutura. Neste estudo temos um total de
126 (35.9%) instâncias de radares ruins e 225 (64.1%) instâncias de radares bons.
Na Seção 4.8 e na Tabela 4.3 estão os resultados das análises realizadas conside-
rando uma base de dados muito desbalanceada, [Harkins et al. (2002)]. Trabalhamos
com um total 21 (um sexto) de 126 instâncias de radares ruins ( anomalias).
O algoritmo DBSCAN apresentou uma ótima performa-se (acurácia de 100%)
53
para a análise que a estimativa dada para o número mı́nimo de elementos por grupo
é menor ou bem próxima a quantidade de anomalias inseridas na base de dados. No
entanto, nas análises em que considerou-se estimativas maiores para esse parâmetro,
o seu poder preditivo cai em média 22% . O modelo de mistura também apresentou
um bom desempenho, o mesmo não pode ser dito do algoritmo K medoides, tendo o
pior desempenho deste estudo, ver Figura 4.5 e Tabela 4.3.
Figura 4.5: Gráfico da Curva ROC referente aos resultados obtidos dos algoritmos:
DBSCAN, K medóides, Modelo de mistura para dos dados Ionosfera.
Tabela 4.3: Resultos referentes ao conjunto de dados Ionosfera

Métodos
a b
Vizinhos Anomalias DBSCAN K medoides Modelo de mistura
5 2 1 (0.75) 2 ( 0.86) 1 (0.68)
7 4 2 (0.75) 3 ( 0.51) 4 (0.91)
10 8 4 (0.75)) 3 ( 0.45) 8 (0.83)
15 11 6 (0.77) 7 (0.45) 11 (0.83)
15 16 11 (0.84) 10 ( 0.45) 16 ( 0.86)
20 21 15 (0.83) 6 ( 0.72) 21 ( 0.84)
a
Quantidade mı́nima de instâncias por grupo ou com maiores fatores anômalos.
b
4.7 Conjunto de dados de Linfografia

O conjunto de dados de Linfografia foi obtida no Centro Médico do Instituto
de Oncologia, Ljubljana, Iugoslávia. Ele contém 148 instâncias, e 18 atributos
excluindo o rótulo. As instâncias foram rotuladas em quatro diferentes classes:
normal, metástase, linfa maligno, fibrose. As classes de maiores ocorrências são: a
metástase com 81 (54.7%) instâncias, e a linfa maligna com 61(41.2%) instâncias,
54
somando um total de 95.9% casos de referência. Os casos raros encontram-se nas
classes: normal com 2 (1.4%) instâncias e fibrose com 4 (2.7%) instâncias, somando
um total de 4.1% de anomalias.
O kernel dos dados Linfografia apresenta uma forma linear e a formação de dois
grupos bem separados, a menos de algumas classificações equivocadas, Figura 4.6. A
acurácia obtida do algoritmo k-medoides é 0.6409, e referente ao DBSCAN foi 0.50.
Foi reproduzido o planejamento de experimento de He et al. (2003). Aleatori-
amente quatro instâncias anômalas foram inseridas na base de dados inicialmente.
Na primeira análise o algoritmo DBSCAN foi capaz de identificar com precisão as
amostras anômalas de cada classe, assim como foi identificado nas demais análises
realizadas, apesar de seu poder preditivo ter reduzido de 63% para 0.50% para
estimativas de número mı́nimo de pontos por grupo superiores a 15. O algoritmo K
medoides apresentou um desempenho insatisfatório nas duas análises realizadas, e o
modelo de mistura não trabalha com atributos binários.
Figura 4.6: Gráfico da curva ROC referente aos resultados obtidos dos algoritmos:
DBSCAN, K medóides. Projeção dos dados Linfografia em duas caracterı́sticas
usando kernel da função de base radial Gaussiana.
Tabela 4.4: Resultos para o conjunto de dados Linfografia

Métodos
Vizinhos a Anomaliasb DBSCAN K medoides
7 4 4 (0.63) 2 (0.37)
15 4 4 (0.50)
22 4 4 (0.50)
30 6 6 (0.50) 2 (0.37)
a
Quantidade mı́nima de instâncias por grupo ou com maiores
fatores anômalos.
b
55
4.8 Resultados dos experimentos preliminares
Nesta Seção são apresentadas as tabelas com resultados obtidos dos experimentos
realizados baseados no planejamento feito por Harkins et al. (2002) em quatro
conjuntos de dados: Câncer de mama, Spam, Musk, e Ionosfera. Neste estudo, foram
aplicados algoritmos de agrupamentos de dados para detectar anormalidade nos
dados.
Tabela 4.5: Número de Anomalias Preditas pelo Algoritmo DBSCAN (Acurácia)

V a Ab Câncer de mama Spam Musk Ionosfera
1 10 4 (0.94) 181 (0.46) 0 (0.5) 2 (1)
2 18 7 (0.94) 326 (0.48) 0 (0.5) 3 (0.88)
4 36 14 (0.94) 652 (0.49) 0 (0.5) 6 (0.88)
6 54 21 (0.938) 0 (0.5) 0 (0.5) 9 (0.91)
8 69 27 (0.937) 0 (0.5) 0 (0.5) 10 (0.86)
10 82 32 (0.936) 0 (0.5) 0 (0.5) 13 (0.88)
12 90 35 (0.935) 0 (0.5) 0 (0.5) 13 (0.84)
14 97 38 (0.935) 0 (0.5) 0 (0.5) 13 (0.80)
16 100 39 (0.934) 0 (0.5) 0 (0.5) 14 (0.80)
18 100 39 (0.934) 0 (0.5) 0 (0.5) 14 (0.81)
20 100 39 (0.934) 0 (0.5) 0 (0.5) 14 (0.72)
25 100 39 (0.930) 0 (0.5) 0 (0.5) 14 (0.716)
28 100 39 (0.927) 0 (0.5) 0 (0.5) 15 (0.73)
a
Porcentagem mı́nima de instâncias por grupo ou com maiores fatores
anômalos.
b
Porcentagem de anomalias inseridas no conjunto de dados.
Tabela 4.6: Número de Anomalias Preditas pelo Algoritmo K medóides (Acurácia)

% de malignos Câncer de mama Spam Musk Ionosfera
10 0 (0.295) 60 (0.62) 6 (0.45) 1 (0.61)
18 0 (0.295) 118 (0.62) 14 (0.49) 2 (0.61)
36 0 (0.295) 220 (0.62) 20 (0.43) 5 (0.45)
54 20 (0.965) 289 (0.60) 29 (0.43) 6 (0.41)
69 24 (0.95) 376 (0.60) 39 (0.44) 8 (0.42)
82 29 (0.957) 393 (0.59) 50 (0.44) 11 (0.46)
90 30 (0.92) 451 (0.60) 54 (0.44) 11 (0.43)
97 30 (0.90) 1264 (0.40) 55 (0.43) 11 (0.41)
100 32 (0.90) 1309 (0.40) 150 (0.57) 11 (0.40)
Para detectar anomalias Hawkins et al (2002) considerou diferente porcentagem

de instâncias com altos escores anômalos ou fatores anômalos). A eficiência dos
algoritmos foi analisada segundo as taxas de verdadeiros positivos e falsos positivos.
A acurácia é a capacidade do algoritmo de bem classificar os dados em seus diferentes
grupos. Como apenas interessa a predição correta de anomalias. A medida da
56
Tabela 4.7: Número de Anomalias Preditas pelo Modelo de Mistura Robusto
(Acurácia)
% de malignos Câncer de mama Musk Ionosfera
10 3 (0.915) 14 (0.45) 2 (0.91)
18 7 (0.93) 14 (0.49) 4(0.90)
36 14 (0.91) 35 (0.57) 8 (0.92)
54 21 (0.927 ) 43 (0.65) 11 (0.90)
69 26 (0.91) 56 (0.67) 14 (0.91)
82 31 (0.928) 73 (0.64) 16 (0.89)
90 35 (0.92) 81 (0.65) 18 (0.88)
97 37 (0.928) 78 (0.68) 19 (0.89)
100 39 (0.90) 86 (0.66) 19 (0.88)
acurácia nem sempre é representativa, porque o algoritmo pode ter bem classificado
as anomalias com baixa taxa de falsos positivos e apresentar uma baixa acurácia
devido não ter bem classificado os dados de referência, ou vice versa. Os experi-
mentos realizados foram úteis para identicar como diferentes tipos de atributos, a
forma de agrupamento dos pontos e as estimativas dadas para os parâmetros dos
algoritmos influenciam a capacidade de preditiva dos métodos abordados. A seguir
são mostradas as Tabelas com os resultados das análises de quatro dos conjuntos de
dados investigados.

Os experimentos preliminares foram construı́dos tendo como base os experimentos
realizados por Harkins et al. (2002), e He et al. (2003) para detecção de anomalias.
No entanto, os algoritmos investigados seguiram os objetivos desta pesquisa. Os
experimentos viabilizaram a confirmação das limitações e propriedades destacadas
pela literatura. Os conceitos básicos dos algoritmos utilizados são a base para a
construção da maioria dos algoritmos de análise de agrupamento de dado. A eficiência
de cada algoritmo proposto é fortemente relacionado com o cenário. Em particular
o algoritmo DBSCAN se mostrou fortemente influenciado pelas estimativas dos
parâmetros, e por valores nas fronteiras dos grupos. Os três algoritmos apresentaram
ineficientes quando aplicados a conjuntos de dados com alta dimensão. Contudo,
o modelo de misturas de Gaussianas robusto e o k medoides mostraram menor
eficiência se comparados ao DBSCAN de um âmbito geral. Supostamente é pelo fato
de tanto o modelo de misturas de Gaussianas como o k medoides não respeitarem a
formação natural dos grupos, e ambos formarem grupos com formas convexas.
57
Capı́tulo 5
Projeto de Pesquisa
Neste capı́tulo é apresentado as principais atividades a serem realizadas no

decorrer deste curso de doutorado. O conteúdo do capı́tulo está organizado nas
seguintes seções: na Seção 5.1 é apresentado uma breve descrição dos tópicos que
pretende-se pesquisar, e na Seção 5.2 é descrito as atividades que foram realizadas e
as que serão realizadas no decorrer deste curso de doutorado.
5.1 Abordagens Propostas

Construir um algoritmo não supervisionado para detectar anomalias considerando
subespaços. Um esquema do que se pretende desenvolver é apresentado no quadro
abaixo.
Entrada: Atributos relevantes.
Saı́da: Escores anômalos calculados para cada instância.
1) Construção do modelo
(i) Selecione um subespaço t, para um t ∈ (1, · · · , T );

(ii) Identifica-se nesse subespaço se existe a formação de grupos de pontos;
(iii) Se o número de grupos nesse subespaço for maior que um, ou seja, se
k > 1;
(iv) Seleciona um algoritmo para detecção de anomalias local;
(v) Seleciona vizinhanças de pontos para realizar as comparações;
(vi) Obtém-se os escores anômalos local;
(vii) Caso contrário, se o número de grupos nesse subespaço for igual a um, ou
seja, se k = 1;
(viii) Seleciona um algoritmo para detecção de anomalias global;
(ix) Obtém-se os escores anômalos global;
(x) Realiza todos as etapas de 1) para todos os subespaços de interesse.
58
2) Comparação de modelo
(i) Regularizar os T escores anômalos;

(ii) Normalizar os T escores anômalos;
(iii) Combinar os T escores anômalos.
Algumas das abordagens e questões a serem investigadas são descritas a seguir:
1. As pesquisas serão direcionadas para algoritmos de análise de agrupamento

para detecção de anômalias em subespaços, pelo fato de que cada instância
pode ser agrupada em múltiplos pontos de vista. Pressupõem-se que poucos são
os subespaços relevantes, e a busca por subespaços relevantes e a detecção de
anomalias são conjuntamente observadas. Para tratar o problema da seleção de
subespaços ótimo as técnicas propostas são: os métodos de seleção de atributo
wrapper, e filtro, [Muller et al.(2012)]; as funções de Hilbert, [Derksen (2007)];
o algoritmo CLIQUE, [Agrawal et al. (1998)], e modelo multinomial, [Pichara
e Soto (2011)].
2. As abordagens para detecção de anomalias local consideram que os dados foram

gerados por distintos mecanismos. Nesse contexto considerar-se conjuntos de
referência local ao invés de se considerar o conjunto de dados completo para
realizar comparações entre candidatos anômalos. O desafio dessa abordagem é
a seleção dos conjuntos de referência, na qual é usualmente selecionado segunda
a vizinhança de um dado ponto, [Schubert et al. (2015)].
3. Identificar a estrutura dos dados nos subespaços, ou seja, verificar se existe a

formação de grupos de pontos em cada subespaço. Existem várias técnicas
desenvolvidas para esse propósito, por exemplo: testes de hipóteses Bayesianos,
algoritmos hierárquicos, modelos de mistura.
4. Funções para regularizar e normalizar diferentes tipos de escores anômalos

serão pesquisadas, como o objetivo de obter um significativo contraste entre
os escores das instâncias de referência e as instâncias anômalas, [Kriegel et al.
(2011)]. Outra, proposta recente é de utilizar uma medida de correlação para
comparar as classificações que permite um julgamento mais fino de similaridade
e dissimilaridade entre diferentes métodos de detecção de anomalias, [Schubert
et al. (2012)].
5. Os algoritmos a serem comparados precisam pertencer a classe de algoritmos

de análise de agrupamento em subespaço para que seja coerente a comparação.
Tais algoritmos se dividem em quatro categorias: algoritmos algébricos, métodos
iterativos, métodos estatı́sticos e métodos baseados em agrupamento espectral.
Dentre essas categorias as técnicas recomendadas para dados contaminados
são as baseadas na teoria: Bayesiana, de grafos e de probabilidades, [Sim et al.
(2013)].
59
5.2 Atividades e Cronograma
As atividades relacionadas neste doutorado tiveram inı́cio em março de 2014.
Desde então, foram cursadas as disciplinas exigidas pelo programa de pós-graduação
do ICMC e foram realizadas diversas pesquisas bibliográfica até que se encontra-se
uma classe de métodos que atendessem os objetivos desta pesquisa. A seguir, essas
atividades, conjuntamente com o cronograma para as próximas atividades vinculadas
ao perı́odo de doutoramento, serão descritas.
Disciplinas. O programa de pós-graduação do ICMC/ USP de São Carlos não exige

um número mı́nimo de créditos em disciplinas para a qualificação e para o
depósito da tese são necessários 44 crédito. Foram obtidos um total de 60
créditos em disciplinas cursadas durante o perı́odo de março de 2014 a junho
de 2015.
Pesquisa Bibliográfica. Faz parte do cronograma das atividades a revisão bibli-

ográfica que será realizada continuamente durante todo o perı́odo de doutorado
com o objetivo estar atualizada com relação as pesquisa da área.
Conjuntos de Dados. Pretende-se utilizar tanto conjuntos de dados artificiais

quanto conjuntos de dados reais para testar e comparar a qualidade dos
métodos propostos.
Pesquisa no Exterior. O tempo estimado no exterior deve ser de 12 meses viabi-

lizada por uma bolsa de doutorado sanduı́che na França.
Desenvolvimento e Implementação. Após a qualificação será iniciada a imple-

mentação das abordagens propostas e das técnicas do estado da arte. Pretende-
se utilizar, sempre que possı́vel, ferramentas de código aberto para acelerar o
desenvolvimento e facilitar a disponibilização do código para a comunidade
cientı́fica.
Realização dos experimentos. A realização dos experimentos visa comparar as

técnicas comumente utilizadas com as propostas neste trabalho. Pretende-
se analisar os resultados por meio de medidas de avaliação adequadas para
algoritmos de análise de agrupamento, sendo elas medidas de validação de
grupos, e métodos estatı́sticos.
Artigos. Elaborar e submeter artigos cientı́ficos, durante esse perı́odo, reportando

as contribuições obtidas.
Tese. Redigir o texto para a defesa da tese que será apresentada a uma comissão
examinadora.
O cronograma com as atividades desenvolvidas e a serem desenvolvidas é apre-

sentado na Tabela 5.2, dividido por semestres.
60
Tabela 5.1: Cronograma de atividades do doutorado
Pesquisa Bibliográfica
Disciplinas
Coleta dos Dados
Qualificação
Pesquisa no Exterior
Desenvolvimento e Implementação
Realização dos experimentos
Artigos
Tese

Este capı́tulo procurou descrever alguns dos principais pontos relacionados a
este projeto de pesquisa. Na abordagem proposta, foram discutidas as ideias para
elaboração do trabalho a ser desenvolvido; o uso de conjuntos de dados como parte
integrante da pesquisa, os método a serem utilizados, procurou-se justificar às suas
escolhas. Ao final, foram descritas as atividades e o cronograma.
61
Referências Bibliográficas
[1] Achtert, E., Böhm, C., Kriegel, H. P., Kröger, P., e Zimek, A. (2006). Deriving
quantitative models for correlation clusters. In Proceedings of the 12th ACM
SIGKDD international conference on Knowledge discovery and data mining,
4-13. ACM.
[2] Aggarwal, C. C., e Philip, S. Y. (2005). An effective and efficient algorithm for
highdimensional outlier detection. The VLDB Journal, 14, 211–221.
[3] Agrawal, R., Gehrke, J., Gunopulos, D. e Raghavan, P. (1998). Automatic

subspace clustering of high dimensional data for data mining applications, in:
Proceedings ACM-SIGMOD International Conference Management of Data, pp.
94–105.
[4] Bennett, K. P., Fayyad, U., e Geiger, D. (1999). Density-based indexing for
approximate nearest-neighbor queries. In Proceedings of the fifth ACM SIGKDD
international conference on Knowledge discovery and data mining (pp. 233-243).
ACM.
[5] Bertoni, A., e Valentini, G. (2006). Ensembles based on random projections

to improve the accuracy of clustering algorithms. In Neural nets (pp. 31-37).
Springer Berlin Heidelberg.
[6] Bouveyron, C., Girard,S.,Andschmid, C. 2007. High-dimensional data clustering.

Comput. Statist. Data Anal. 52, 502–519.
[7] Derksen, H. (2007). Hilbert series of subspace arrangements. Journal of pure

and applied algebra, 209(1), 91-98.
[8] Fan, H. , Zaıane, O. R. , Foss, A., Wu, J. (2006). A nonparametric outlier

detection for efficiently discovering top-N outliers from engineering data. In
Proc. PAKDD.
[9] Filippone, M., Camastra, F. Masulli, F., Rovetta, S. (2007). A survey of kernel
and spectral methods for clustering. Pattern Recognition. Vol. 41 (1), 176–190.
[10] Fraley, C., e Raftery, A. E. (2002). Model-based clustering, discriminant analysis,

and density estimation. Journal of the American statistical Association, 97(458),
611-631.
62
[11] Gao, J., e Tan, P. N. (2006). Converting output scores from outlier detection
algorithms into probability estimates. In Data Mining, 2006. ICDM’06. Sixth
International Conference on (pp. 212-221). IEEE.
[12] Gionis, A., Mannila, H., Tsaparas, P. (2005). Clustering aggregation. 21st
International Conference on Data Engineering (ICDE 2005).
[13] Hawkins, D. M. (1980). Identification of outliers (Vol. 11). London: Chapman

and Hall.
[14] Harkins, S., He, H. X., Willams, G. J., Baxter, R. A. (2002). Outlier detec-
tion using replicator neural networks. InProceedings of the 4th international
conference on data warehousing and knowledge discovery, France(pp. 170–180).
[15] He, Z. Y., Deng, S. C., Xu, X. F. (2005). An optimization model for outlier
detection in categorical data. In Advances in intelligent computing, international
conference on intelligent computing, ICIC(1), Hefei, China (pp. 400–409).
[16] He, Z., Deng, S., e Xu, X. (2005). A unified subspace outlier ensemble framework
for outlier detection. In Advances in Web-Age Information Management (pp.
632-637). Springer Berlin Heidelberg.
[17] Hsu, C. M., e Chen, M. S. (2004). Subspace clustering of high dimensional

spatial data with noises. In Advances in Knowledge Discovery and Data Mining
(pp. 31-40). Springer Berlin Heidelberg.
[18] Jiang, F., Sui, Y, e Cao, C., (2009). Some issues about outlier detection in rough
set theory. Expert Systems with Applications, 36 4680–4687.
[19] Jing, L., Ng,M.K., Andhuang, J. Z. 2007. An entropy weighting k-means al-
gorithm for subspace clustering of high-dimensional sparse data.IEEE Trans.
Knowl. Data Eng. 19, 8, 1026– 1041.
[20] Kriegel, H., Kroger, P., Schubert, E., e Zimek, A. (2012). Outlier detection in
arbitrarily oriented subspaces. In Data Mining (ICDM), IEEE 12th International
Conference on (pp. 379-388). IEEE.
[21] Kriegel, H., Kroger, P., Schubert, E., e Zimek, A. (2011). Interpreting and
unifying outlier scores. In 11th SIAM International Conference on Data Mining
(SDM), Mesa, AZ (Vol. 42).
[22] Kriegel, H. P., Kröger, P., Schubert, E., e Zimek, A. (2009). Outlier detection
in axis-parallel subspaces of high dimensional data. In Advances in Knowledge
Discovery and Data Mining (pp. 831-838). Springer Berlin Heidelberg.
[23] Kriegel, H. P., Kröger, P., e Zimek, A. (2009). Clustering high-dimensional

data: a survey on subspace clustering, pattern-based clustering, and correlation
clustering. ACM Transactions on Knowledge Discovery from Data (TKDD),
3(1), 1.
63
[24] Kriegel, H. P., e Zimek, A. (2010). Subspace clustering, ensemble clustering,
alternative clustering, multiview clustering: what can we learn from each other?
Proceedings of MultiClustKDD.
[25] Kulis, B., Sustik, M.A., Dhillon, I.S. (2009b). Low-rank kernel learning with
bregman matrix divergences. Journal of Machine Learning Research, Vol. 10,
341–376.
[26] Lakhina, A., Crovella, M., e Diot, C. (2005). Mining anomalies using traffic
feature distributions. In ACM SIGCOMM Computer Communication Review
(Vol. 35, No. 4, pp. 217-228). ACM.
[27] Moise, G. , Zimek, Kroger, A., P., Kriegel, H.-P., e Sander, J. (2009). Subspace
and projected clustering: experimental evaluation and analysis, Knowledge and
Inform Syst (KAIS) 21(3) , 299–326.
[28] Müller, E. , Gunnemann, S., Assent, I., e Seidl, T. (2009). Evaluating clustering
in subspace projections of high dimensional data, In Proceedings of the 35th
International Conference on Very Large Data Bases (VLDB), Lyon, France,
2009, 1270–1281.
[29] Murthy, M. K., Govardhan, A., e Lakshmi SreenivasaReddy, D. A model to

find outliers in mixed-attribute datasets using mixed attribute outlier factor.
International journal of Computers Science Issues (IJCSI) Volume, 10.
[30] Müller, E., Assent, I., Iglesias, P., Mulle, Y., e Bohm, K. (2012). Outlier ranking
via subspace analysis in multiple views of the data. In Data Mining (ICDM),
IEEE 12th International Conference on pp. 529-538. IEEE.
[31] Müller, E., Schiffer, M., e Seidl, T. (2011). Statistical selection of relevant
subspace projections for outlier ranking. In Data Engineering (ICDE), IEEE
27th International Conference on (pp. 434-445). IEEE.
[32] Pichara, K., e Soto, A. (2011). Active learning and subspace clustering for
anomaly detection. Intelligent Data Analysis, 15(2), 151-171.
[33] Wei, L., Qian, W., Zhou, A., Jin, W., e Jeffrey, X. Y. (2003). Hot: hypergraph-
based outlier test for categorical data. In Advances in Knowledge Discovery and
Data Mining, 399-410. Springer Berlin Heidelberg.
[34] Willams, G. J., Baxter, R. A., He, H. X., Harkins, S., Gu, L. F. (2002).
A comparative study of RNN for outlier detection in data mining. InICDM,
Japan(pp. 709–712).
[35] Schubert, E., Zimek, A., e Kriegel, H. P. (2014). Local outlier detection re-
considered: a generalized view on locality with applications to spatial, video,
and network outlier detection. Data Mining and Knowledge Discovery, 28(1),
190-237.
64
[36] Schubert, E., Wojdanowski, R., Zimek, A., e Kriegel, H. P. (2012). On evalu-
ation of outlier rankings and outlier scores, In Proceedings of the 12th SIAM
International Conference on Data Mining (SDM), Anaheim, CA, 1047–1058.
[37] Schubert, E., Zimek, A., e Kriegel, H. P. (2015). Fast and Scalable Outlier
Detection with Approximate Nearest Neighbor Ensembles. In Database Systems
for Advanced Applications (pp. 19-36). Springer International Publishing.
[38] Sim, K., Gopalkrishnan, V., Zimek, A., e Cong, G. (2013). A survey on enhanced
subspace clustering. Data mining and knowledge discovery, 26(2), 332-397.
[39] Soltanolkotabi, M., Elhamifar, E., e Candes, E. J. (2014). Robust subspace

clustering. The Annals of Statistics, 42(2), 669-699.
[40] Vidal, R. (2010). A tutorial on subspace clustering. IEEE Signal Processing

Magazine, 28(2), 52-68.
[41] Ye, M., Li, X., e Orlowska, M. E. (2009). Projected outlier detection in high-
dimensional mixed-attributes data set. Expert Systems with Applications, 36(3),
7104-7113.
[42] Yu, K., Dang, X., Bart Jr, H. e Chen, Y. (2015). Robust model based learning via
spatial-EM algorithm. IEEE Transactions on Knowledge and Data Engineering,
27(6), 1670-1682.
[43] Zhang, Y., Meratnia, N., e Havinga, P. J. M. (2007). A taxonomy framework

for unsupervised outlier detection techniques for multi-type data sets.
[44] Zhang, W. e Kosecka, J. (2006). Ensemble method for robust motion estimation.
In 25 years of RANSAC workshop, CVPR.
[45] Zahn, C. T. (1971). Graph-theoretical methods for detecting and describing

gestalt clusters. Computers, IEEE Transactions on, 100(1), 68-86.
[46] Zimek, A. (2009). Correlation clustering, ACM SIGKDD Explor 11(1) , 53–54.
[47] Zimek, A., Schubert, E., e Kriegel, H. P. (2012). A survey on unsupervised

outlier detection in high dimensional numerical data. Statistical Analysis and
Data Mining: The ASA Data Science Journal, 5(5), 363-387.
65

Técnicas Não Supervisionadas para A Deteccão de Anomalias em Conjuntos de Dados Mistos

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Técnicas Não Supervisionadas para A Deteccão de Anomalias em Conjuntos de Dados Mistos

Transféré par

Droits d'auteur :

Formats disponibles

Técnicas Não Supervisionadas para a

Detecção de Anomalias em Conjuntos de

Kelly Cristina Ramos da Silva

Kelly Cristina Ramos da Silva

Técnicas Não Supervisionadas para a Detecção de

Monografia apresentada ao Instituto de Ciências Ma-

Orientador: Prof. Dr. André Carlos Ponce de Leon Ferreira de Carvalho

USP - São Carlos

Unsupervised Techniques for Anomaly Detection in

Paper presented to the Institute of Mathematics and

Orientador: Prof. Dr. André Carlos Ponce de Leon Ferreira de Carvalho

USP - São Carlos

2 Revisão Bibliográfica sobre Detecção de Anomalias 13

3 Métodos para Detecção de Anomalias 24

3.1 Relevantes caracterı́sticas dos algoritmos de análise de agrupamento

4.1 Caracterı́sticas dos conjuntos de dados utilizados . . . . . . . . . . . . 49

5.1 Cronograma de atividades do doutorado . . . . . . . . . . . . . . . . 61

1.1 Gráfico de dispersão com anomalias. Conceitos obtidos de Chen et al.

2.1 Métodos para análise de agrupamento de dados tradicional e não

3.1 Esquema de deteção de anomalias local. Adaptado de Schubert et al.

4.1 Gráfico da Curva ROC referente aos modelos DBSCAN, K medoids,

O conceito de anomalia surgiu de diversas situações reais de suspeitas de alarmes,

Neste capı́tulo é apresentado uma visão geral do tema - Detecção de Anomalias.

Um exemplo de anomalia do ”corvo branco”pode ser visto, no caso quando temos

Na área de Estatı́stica, uma anomalia é classificada como univariada, quando

1. Pontual, quando exemplos individuais e aleatórios desviam-se significativamente

1.1.1 A Natureza do Conjunto de Dados

Figura 1.4: Aspectos do processo de deteção de anomalias. Adaptado de Zhang et al.

Com os avanços da tecnologia, atualmente é possı́vel obter e analisar grandes

1. As abordagens para detecção de anomalias, no geral, não são simples e não

3. Obter nı́veis satisfatório com relação a taxa de detecção de anomalias e taxa

4. Usualmente ter informação a respeito da classificação dos dados para o treina-

5. A deteção de anomalias em conjuntos de dados complexos não é simples, e

6. A maioria das abordagens de deteção de anomalias consideram uma única

7. Selecionar um conjunto de referência para determinar comportamento usual de

8. Em um espaço de alta dimensão, pressupõem-se que poucos são os subespaços

9. Existe um questionamento se anomalias podem ser definidas em termos das

10. Os escores anômalos obtidos de mútiplos algoritmos de detecção de anomalia

2. Buscar por algoritmos não tradicionais de análise de agrupamentos robustos

3. Buscar por técnicas que identificam subconjuntos de atributos relevantes, e

4. Buscar por técnicas de regularização e normalização de escores anômalos;

6. Realizar estudos de caso em bases de dados públicas contaminadas estudadas

1.6 Estrutura do texto

1.7 Sı́ntese do capı́tulo

Revisão Bibliográfica sobre

Neste capı́tulo é apresentado uma revisão da literatura com respeito as técnicas

2.2 Métodos baseados em proximidade

1. Para um atributo contı́nuo - a medida mais popular é a distância Euclidiana

2. Para um atributo categórico - um simples coeficiente combinado;

4. Para um conjunto de atributos mistos, um proposta de distância definida para

em que oi e oj é a i-ésima e a j-ésima instância, ∀i, j = 1, · · · , n; mr é a

É relativamente fácil estimar a proximidade para atributos numéricos, o que

A distância quadrática de Mahalanobis é calculada para cada instância. A

M D2 (oi , D) = (oi − o¯i )S −1 (oi − o¯i )t ,

em que oi é a i-ésima linha da matriz D, ō é o estimador de locação multivariado

2.4 Métodos baseados em análise de agrupamento

Figura 2.1: Métodos para análise de agrupamento de dados tradicional e não

A seguir é apresentada uma revisão dos principais conceitos dos algoritmos de

2.4.1 Métodos hierárquico

d(Ci , Cj , Ck ) = a(i)d(Ci , Ck ) + a(k)d(Cj , Ck ) + bd(Ci , Cj ) + cd(Ci , Ck ) − d(Cj , Ck ),

em que a, b, c são coeficientes das particulares ligações, e ∀ i, j, k = 1, · · · , n.

2.4.2 Métodos particionado