Vous êtes sur la page 1sur 73

Técnicas Não Supervisionadas para a

Detecção de Anomalias em Conjuntos de


Dados Mistos

Kelly Cristina Ramos da Silva


SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP
Data de Depósito:

Assinatura:

Kelly Cristina Ramos da Silva

Técnicas Não Supervisionadas para a Detecção de


Anomalias em Conjuntos de Dados Mistos

Monografia apresentada ao Instituto de Ciências Ma-


temáticas e de Computação – ICMC – USP, para o
Exame de Qualificação, como parte dos requisitos para
obtenção do tı́tulo de Doutor em Ciências de Computação
e Matemática Computacional. Área de Concentração:
Ciências de Computação e Matemática Computacional.

Orientador: Prof. Dr. André Carlos Ponce de Leon Ferreira de Carvalho

USP - São Carlos


Agosto de 2015
Kelly Cristina Ramos da Silva

Unsupervised Techniques for Anomaly Detection in


Mixed Data Sets

Paper presented to the Institute of Mathematics and


Computer Sciences - ICMC - USP, for Qualifying Exami-
nation as part of the requirements for obtaining a doc-
torate in Computer Science and Computational Mathe-
matics. Concentration Area: Computer Science and
Computational Mathematics.

Orientador: Prof. Dr. André Carlos Ponce de Leon Ferreira de Carvalho

USP - São Carlos


August 2015

2
Sumário

1 Detecção de Anomalia 2
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 A Natureza do Conjunto de Dados . . . . . . . . . . . . . . . 5
1.2 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Limitações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1 Especı́fico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Estrutura do texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7 Sı́ntese do capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2 Revisão Bibliográfica sobre Detecção de Anomalias 13


2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Métodos baseados em proximidade . . . . . . . . . . . . . . . . . . . 14
2.3 Métodos estatı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Métodos baseados em análise de agrupamento . . . . . . . . . . . . . 16
2.4.1 Métodos hierárquico . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2 Métodos particionado . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.3 Agrupamento probabilı́stico . . . . . . . . . . . . . . . . . . . 21
2.5 Sı́ntese do capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3 Métodos para Detecção de Anomalias 24


3.1 Deteção de anomalias local . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Detecção de anomalias em conjuntos de dados mistos . . . . . . . . . 28
3.3 Análise de agrupamento em alta dimensão . . . . . . . . . . . . . . . 29
3.4 Deteção de anomalias em subespaços . . . . . . . . . . . . . . . . . . 31
3.4.1 Definição de subespaço . . . . . . . . . . . . . . . . . . . . . . 33
3.4.2 Algoritmos de análise de agrupamento em subespaço . . . . . 35
3.5 Detecção de anomalias baseada em técnica de projeção . . . . . . . . 36
3.5.1 Análise de componentes principais . . . . . . . . . . . . . . . . 37
3.6 Detecção de anomalias em agrupamento de atributos correlacionados 38
3.7 Escores anômalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.7.1 Regularização e normalização e interpretação de escores anômalos 40
3.7.2 Propostas de Regularizações para diferentes tipos de escores . 42
3.7.3 Transformação de escore anômalo em probabilidade . . . . . . 44
3.7.4 Abordagens Anomalias Ensemble . . . . . . . . . . . . . . . . 45

3
3.7.5 Escore ODMAD . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.8 Sı́ntese do capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4 Experimentos Preliminares 48
4.1 Conjuntos de Dados Analisados . . . . . . . . . . . . . . . . . . . . . 48
4.2 Análise do conjunto de dados de Câncer de Mama Wisconsin . . . . . 49
4.3 Análise do conjunto de dados de Spam . . . . . . . . . . . . . . . . . 50
4.4 Análise do conjunto de dados de Musk . . . . . . . . . . . . . . . . . 51
4.5 Análise do conjunto de dados Promotergene . . . . . . . . . . . . . . 52
4.6 Análise do conjunto de dados de Ionosfera . . . . . . . . . . . . . . . 53
4.7 Conjunto de dados de Linfografia . . . . . . . . . . . . . . . . . . . . 54
4.8 Resultados dos experimentos preliminares . . . . . . . . . . . . . . . 56
4.9 Sı́ntese do capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5 Projeto de Pesquisa 58
5.1 Abordagens Propostas . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.2 Atividades e Cronograma . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3 Sı́ntese do capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4
Lista de Tabelas

3.1 Relevantes caracterı́sticas dos algoritmos de análise de agrupamento


em espaços de altas dimensões. Adaptada de Sim et al. (2013). . . . . 31

4.1 Caracterı́sticas dos conjuntos de dados utilizados . . . . . . . . . . . . 49


4.2 Resultos referente ao conjunto de dados Promotergene . . . . . . . . 52
4.3 Resultos referentes ao conjunto de dados Ionosfera . . . . . . . . . . . 54
4.4 Resultos para o conjunto de dados Linfografia . . . . . . . . . . . . . 55
4.5 Número de Anomalias Preditas pelo Algoritmo DBSCAN (Acurácia) 56
4.6 Número de Anomalias Preditas pelo Algoritmo K medóides (Acurácia) 56
4.7 Número de Anomalias Preditas pelo Modelo de Mistura Robusto
(Acurácia) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5.1 Cronograma de atividades do doutorado . . . . . . . . . . . . . . . . 61

5
Lista de Figuras

1.1 Gráfico de dispersão com anomalias. Conceitos obtidos de Chen et al.


(2012). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Métodos em grafos para detecção de anomalias. Adaptado de Chen et
al. (2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Árvore de métodos classificados pelo tipo de conjunto de dado. Adap-
tado de Zhang et al. (2007). . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Aspectos do processo de deteção de anomalias. Adaptado de Zhang
et al. (2007) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1 Métodos para análise de agrupamento de dados tradicional e não


tradicional. Adaptado de Sim et al. (2013) . . . . . . . . . . . . . . . 17

3.1 Esquema de deteção de anomalias local. Adaptado de Schubert et al.


(2014) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 Ilustração de subespaços em 3D. Adaptado de Sim et al. (2013) . . . 31
3.3 Projeções em subespaços. Adaptado de Kriegel, Kröger e Zimek (2009) 39
3.4 A ideia geral de como identificar anomalias em subespaços de atributos
originais por meio de um subespaço ortogonal. Adaptado de Kriegel
et al. (2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.1 Gráfico da Curva ROC referente aos modelos DBSCAN, K medoids,


Robusto EM para os dados mama. Projeção do conjunto de dados de
Câncer de Mama Wisconsin em kernel de dois componentes principais
usando um kernel de função de base radial Gaussiana. . . . . . . . . 50
4.2 Gráfico da Curva ROC referente aos modelos DBSCAN, K medóides,
Robusto EM para os dados Spam.Projeção dos dados spam em kernel
de dois componentes principais usando um kernel função de base radial. 51
4.3 Gráfico da Curva ROC referente aos modelos DBSCAN, K medoids,
Robusto EM para os dados Musk. . . . . . . . . . . . . . . . . . . . . 52
4.4 Gráfico da Curva ROC referente aos modelos DBSCAN, K medoids,
Robusto EM para os dados Promotergene. Projeção dos dados Pro-
motergene em duas caracterı́sticas usando kernel da função de base
radial Gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.5 Gráfico da Curva ROC referente aos resultados obtidos dos algoritmos:
DBSCAN, K medóides, Modelo de mistura para dos dados Ionosfera. 54
4.6 Gráfico da curva ROC referente aos resultados obtidos dos algoritmos:
DBSCAN, K medóides. Projeção dos dados Linfografia em duas
caracterı́sticas usando kernel da função de base radial Gaussiana. . . 55

6
Resumo

O conceito de anomalia surgiu de diversas situações reais de suspeitas de alarmes,


como em falhas de sensores, em aparecimento de novos fenômenos astronômicos, em
falhas em instrumentos, no aparecimento de células cancerosas em tecidos normais,
e em uma grande variabilidade no tráfico da rede de computadores. A detecção
de anomalias não é um processo único. A seleção de uma abordagem para esse
processo depende do domı́nio de aplicação, da natureza dos dados, e do tipo de
anomalia. Em resumo, o processo de detecção de anomalia é basedo em distintas
suposições, intuições e modelos. Assim, um adequado conhecimento em relação as
abordagens existentes é altamente essencial quando se deseja selecionar um método
para um domı́nio especı́fico, [Gogoi et al 2011]. Não existe usualmente uma distinção
clara entre uma anomalia e uma instância de referência. Uma instância pode ser
desviante em um subconjunto de atributos, e regular em outro. Pressupõem-se
que um conjunto de dados misto é gerado por distintos mecanismos, então um
conjunto de referência local deve ser considerado ao invés do conjunto de dados
completo ao se comparar uma instância a um conjunto de referência. Os métodos
tradicionais usualmente identificam anomalias no espaço de atributos completo, isto é,
apenas uma visualização, e realizam comparações entre instâncias e grupos de pontos
considerando o conjunto de dados completo, [Müller et al. (2012)]. No entanto, os
subconjuntos de atributos podem ser relevantes para diferentes agrupamentos, em
diferentes subespaço. Desta forma o objetivo deste projeto é pesquisar e desenvolver
em análise de agrupamento em subespaços em que pode-se selecionar um algoritmo
para cada subespaço, e a anomalia será avaliada de acordo com à sua vizinhança
local, ou seja, o foco da pesquisa será em detectar anomalias locais em subespaços. A
flexibilidade do agrupamento em subespaços é muito útil em aplicações de dados reais,
desde que diferentes subespaços modo tem diferentes tipos de atributos e diferentes
distribuições, além disso a utilização de tais métodos viabiliza a identificação e
interpretação de anômalas em uma ampla quantidade de tipos de dados. O problema
de agrupamento em subespaço ainda não ser suficientemente bem definido e a
avaliação dessa abordagem é um problema em aberto e desafiador. Pressupõem-se
que essa técnica é intimamente relacionada com a teoria ensemble, pelo fato de ambas
envolverem a conciliação de diversas performances de técnicas e/ou planejamentos.
Por fim, tem-se que a revisão da literatura buscou identificar as principais lacunas
presentes neste processo. Nos experimento foi refeito o planejamento dado por
Harkins et al (2002) para detecção de anomalias. Os algoritmos utilizados nesta
análise pertencem a três grande subáreas da análise de agrupamento baseado em
densidade, particionado, e os modelos de mistura Gaussiano. Os resultados obtidos
dos experimentos auxiliaram na compreensão dos conceitos básicos utilizados em
análise de agrupamento de dados.
Palavras-chave: processo de detecção de anomalias, análise de agrupamento de
dados não tradicional, e escores anômalos.
Resume

The anormality concept arose from several real situations suspected alarms,
such as sensor faults in appearance of new astronomical phenomena, on failure of
instruments, the appearance of cancer cells in normal tissues and a wide variability
in the network traffic computers. The anomaly detection is not a single process.
Selecting an approach to this process depends on the application domain, the nature
of the data, and the nature of the anomaly. Resume this process is based in differents
model, intuition, and suppose. Thus, an appropriate knowledge about existing
approaches is highly essential when you want to select a method for a particular
domain, [Gogoi et al 2011]. There is usually a clear distinction between an anomaly
and a reference point. An instance can be deviant in a subset of attributes, and
regular in another. Assume that a set of mixed data is generated by distinct
mechanisms so a set of local reference have been considered rather than the complete
data set by comparing an instance a set of reference. Traditional methods usually
identify anomalies in the full attributes of space, that is only a preview, and perform
comparisons between instances and point groups considering the complete data set,
[Müller et al. (2012)]. However, the attributes of subsets may be relevant to different
groups in different subspace. Thus the objective of this project is to research and
develop cluster analysis in subspaces in which you can select an algorithm for each
subspace, and the anomaly will be assessed according to their local neighborhood, ie,
the focus of research will be detect local anomalies in subspace. The flexibility of the
clustering in subspaces is very useful in the actual data of applications from different
subspaces mode has different attributes and different distributions, furthermore the
use of such methods allows for the identification and interpretation of anomalous
in a wide number of types of data. The subspace clustering problem is still not
sufficiently well defined and the evaluation of this approach is an issue open and
challenging. It presupposes that this technique is closely related to the ensemble
theory, because both involve the reconciliation of various performance techniques
and / or planning. Finally, it has to be the literature review was to identify the main
gaps present in this process. The experiment was redone planning given by Harkins
et al (2002) to detect anomalies. The algorithms used in this analysis fall into three
major subareas of clustering based density , partitioned, and the Gaussian mixture
models. The results of the experiments helped in understanding the basic concepts
used in data clustering.
Keywords: anomalies detection process, data cluster analysis no traditional, and
anomalous scores.
Capı́tulo 1

Detecção de Anomalia

Neste capı́tulo é apresentado uma visão geral do tema - Detecção de Anomalias.


Algumas das definições dadas para uma anomalias, e além dos cenários em que
frequentemente esse processo é realizado. O conteúdo desse capı́tulo está organizado
nas seguintes seções: a Seção 1.1 são dadas algumas definições de anomalia, e do
processo de detecção de anomalia; na Seção 1.2 são dadas algumas justificativas para
o desenvolvimento desta pesquisa; na Seção 1.4 são descritas algumas das principais
limitações referentes ao tema e os métodos a serem pesquisados; nas Seções 1.3 e 1.5
é apresentado o que pretende demonstrar e os interesses a serem alcançados ao final
desta pesquisa, respectivamente.

1.1 Introdução
A ideia principal da detecção de anomalia surgiu de situações reais de suspeitas
de alarmes. Presentes, por exemplo, em ataques cibernéticos, em falhas de sensores,
em aparecimento de novos fenômenos astronômicos, em falhas em instrumentos, no
aparecimento de células cancerosas em tecidos normais, e em uma grande variabilidade
no tráfico da rede de computadores.
A presença de uma ou mais anomalias em uma base de dados pode ser justificada
segundo duas hipóteses. A primeira hipótese é que a presença de uma anomalia pode
ocorrer por causa de erros humanos, erros de instrumentação, falhas mecânicas ou
alterações ambientais, também denominada como um ruı́do. Nesse caso tais dados
devem ser removidos do conjunto de dados para que não comprometam a qualidade
das inferências. A segunda hipótese é que tal anormalidade presente no conjunto
de dados traduza a informações importantes. Portanto, vale a pena ser investigada
supondo a priori que à sua ocorrência é rara.
Para a separação entre ruı́do e novo evento são considerados diferentes fatores,
como a natureza dos dados, a disponibilidade de dados rotulados, os tipos de
anomalias a serem detectadas, entre outros fatores, [Chandola et al. (2009); Pimentel
et al. (2014)].
Não existe uma definição universal aceitável para o processo de detecção de
anomalias (em inglês outliers detection). Tal processo é referido na literatura tanto
como a identificação de eventos de interesse como a identificação de ruı́dos.

2
Uma definição popular para uma anomalia foi dada por Hawkins (1980), descrita
como segue.
”Uma anomalia é uma observação que se desvia significativamente das de-
mais observações do conjunto de dados e que supostamente foi gerada por
um mecanismo diferente do que gerou as demais observações estudadas”.
No entanto, vale ressaltar que o sentido de uma anomalia difere-se dependendo
da aplicação em questão. Por exemplo, em dados de saúde pública, um pequeno
desvio do normal do comportamento do corpo do Homem pode indicar a presença
de uma anomalia. Enquanto, que um pequeno desvio no mercado financeiro pode
ser considerado normal. Além disso, uma anomalia pode ser visualizada segundo a
significância dos subconjuntos de atributos em uma dada aplicação.
A classificação de comportamentos não usuais nos dados não é trivial. Uma das
técnicas para detecção de anomalias poderosa e geral são os métodos baseados em
grafos, que tratam a anomalia em tipos de conjuntos de dados com atributos mistos,
em conjuntos de dados espaciais, e em dados streaming, [Zhang et al.(2007)]. Nesse
cenário, a deteção de anomalias pode ser analisada considerando duas perspectivas: a
anomalias do ”corvo branco”(em inglês, “white crow”) e a anomalia ”em disfarce”(em
inglês, “in-disguise”). A definição de uma anomalia ”corvo branco”é similar a
definição dada por Hawkins (1980), e uma anomalia ”em disfarce”é uma instância
que apresenta um pequeno desvio do padrão normal [ van der Eems et al (2014);
Eberle e Detentor, (2007)]. Ambos os tipos de anomalias são ilustradas na Figura
1.1.

Dados Contaminados
7
Atributo 2

5
Normal
Corvo branco
Em disfarce
1 2 3 4 5 6 7
Atributo 1

Figura 1.1: Gráfico de dispersão com anomalias. Conceitos obtidos de Chen et al.
(2012).

Um exemplo de anomalia do ”corvo branco”pode ser visto, no caso quando temos


um atributo que corresponde a idade do Homem com um intervalo de variação de
zero e cento anos, um individuo com idade de 322 anos, é um fato improvável, além
de estar fora do intervalo de variação desse atributo. Por outro lado, um exemplo de

3
uma anomalia ”em-disfarce”é a informação dada pelo escritório de nações unidas
que trata de drogas e crimes, relatou: ”a mais bem sucedida lavagem de dinheiro
ocorreu quando a imitação do padrão e do comportamento de transações do dinheiro
esteve mais próxima da legı́tima”, [Chen et al. (2012), Eberle e Holder (2007)]. A
seguir é apresentada uma árvore de tipos de anomalia e seus respectivos métodos
propostos de acordo com a teoria de grafos, ver Figura1.2.

Figura 1.2: Métodos em grafos para detecção de anomalias. Adaptado de Chen et al.
(2012)
.

Na área de Estatı́stica, uma anomalia é classificada como univariada, quando


ocorre em apenas um dos atributos de cada instância, ou multivariada, quando
ocorre em mais de um atributo de uma mesma instância. Esses conceitos não são
exclusivos, isto é, uma mesma instância pode ser anômala univariada e multivariada.
Outra forma, de itentificar anomalias é na análise de diagnóstico, em que uma
anomalia neste caso são pontos aberrantes que podem ou não viesar as estimativas
dos parâmetros de um modelo ajustado.
Na área de mineração de dados, por exemplo, uma anomalia pode ser classificada
como: anomalia pontual, anomalia contextual (ou anomalia condicional), e anomalia
coletiva. A descrição de cada uma delas é dada a seguir, [Bhuyan et al. (2014) e
Chandola et al. (2009)]

1. Pontual, quando exemplos individuais e aleatórios desviam-se significativamente


das demais observações do conjunto de dados.
2. Contextual ou condicional, observada em dados dependentes, tais como dados
espaciais e séries temporais.
3. Coletiva, quando são utilizados conjuntos de dados multidimensionais e um
subconjunto dos dados é considerado anômalo em relação ao conjunto completo
de dados.

4
A questão que um ponto próximo a um grupo é mais provavelmente uma anomalia
do que um ponto que se encontra mais distante desse grupo, também foi levantada
em Breunig et al. (2000) quando introduziu o conceito de ”anomalia local”, e
apresentou o Fator de Anomalia Local - LOF. O LOF têm uma teoria fundamentada
na conectividade da densidade dos pontos, e apresenta o grau de anormalidade para
cada instância. É um método popular e seus conceitos são frequentemente usados
como base para a construção de demais técnicas para detecção de anomalias local,
[Schubert et al. (2014)].
As abordagens não supervisionadas para a deteção de anomalias são divididas
em duas categorias: a abordagem global e a abordagem local.
1. A abordagem global realiza comparações entre os objetos considerando como
referência o conjunto de dados completo, ou seja, supõem que existe apenas
um mecanismo de geração dos dados.
2. A abordagem local realizar comparações entre os objetos seleciona um conjunto
de referência, ou seja, supõem queo conjunto de dados foi gerado por mais do
que um mecanismo. Não há suposição sobre o mecanismo de geração dos dados.
A limitação é selecionar um conjunto de referência apropriado para cada objeto
analisado.
A técnica de identificação de um ponto anômalo dado um conjunto de dados pode
considerar apenas uma análise ou diversas análises ao conjunto de dados. Algumas
das técnicas para detecção de anomalias são planejadas para identificar diferentes
quantidade de anomalias em uma única vez. Outras dessas técnicas identificam as
anomalias uma de cada por vez, de modo que o procedimento é repetido até que
todas as anomalias sejam removidas do banco de dados. Esse método é sujeito a
alta taxa de falsos negativos. Com relação as técnicas que identificam uma coleção
de anomalias de uma única vez, são ditas sofrerem de altas taxas de falsos positivos,
[Gogoi et al. (2011)].
Na próxima seção são descritos alguns dos principais tipos de dados que são
frequentemente encontrados em aplicações reais.

1.1.1 A Natureza do Conjunto de Dados


Um aspecto fundamental, a ser considerado é a natureza dos dados de entrada.
As entradas são geralmente uma coleção de instâncias. Cada instância pode ser
descrita por meio de um conjunto de atributos. Os atributos podem ser de diferentes
tipos, como binário, categórico, discreto, ou contı́nuo. Sendo que cada conjunto
de dados pode consistir em apenas um atributo, ser univariado; ou pode consistir
de múltiplos atributos, ser multivariado. No caso multivariado, todos os atributos
podem ser do mesmo tipo ou podem constituir de uma mistura de diferentes tipos.
Para melhor compreensão dos tipos de dados frequentes nas aplicações reais. Seguem
abaixo as descrições de alguns tipos de dados [Aggarwal e Subbian (2012); Ye et al.
(2009); Das (2008); Zhang et al. (2007), e Tan et al. (2006)]:
1. Dados simples é um conjunto de observações de semântica simples, que é
usualmente representado por uma base de dados de baixa dimensão contendo
atributos assumindo valores contı́nuos.

5
2. Dados complexos têm caracterı́sticas que os tornam complexos. Alguns desses
conjuntos de dados são descritos a seguir:

(a) Alta dimensionalidade são os conjuntos de dados com uma grande quanti-
dade de atributos.
(b) Escalabilidade são conjuntos de dados com grandes quantidades de ob-
servações, com tamanhos em terabytes e até petabytes.
(c) Tipo mistos são conjuntos de dados que contém tanto atributos assumindo
valores quantitativos (contı́nuos e discretos) como atributos assumindo
valores categóricos (binários e de múltiplas categorias).
(d) Sequências de observações são os conjuntos de dados que apresentam uma
sequência de entidades individuais, tais como sı́mbolos ou letras. Esses
dados não tem o mesmo comprimento e conhecida distribuição a priori.
O que dificulta a noção de padrão de similaridade estrutural entre duas
sequências.
(e) Espaciais são conjuntos de dados que contêm informações sobre a loca-
lização, a forma, a direção e outras informações geométricas ou topológicas.
Eles podem determinar vizinhança espacial em termos de relações espaciais,
como a distância ou adjacência.
(f) Streaming são conjuntos de dados com uma grande quantidade de dados
que chegam em tempo real de uma forma rápida e contı́nua, que usualmente
possui um tamanho ilimitado de instâncias, e possui escalabilidade e
dinamicidade.
(g) Espaço temporal são conjuntos de dados de fenômenos geográficos que
evoluem ao longo do tempo.

Vários tipos de dados descritos acima, podem ser expressos em forma de grafos.
Os grafos é uma forma flexı́vel e poderosa de expressar os dados. Os dados podem
ser representados como um único grande grafo, visto por exemplo nas redes de teias
sociais e de informação (em inglês web). Ou mesmo, pequenos múltiplos grafos
podem ser extraı́dos de um grande grafo, como em uma rede bibliográfica, em que
uma publicação é um pequeno grafo dentro de uma grande rede de correlacionadas
bibliografias. Em pequenos grafos, uma única instância pode ser vista como uma
anomalia, e em grandes grafos, as anomalias são definidas como partes da rede,
na qual são vértices, arestas ou subgrafos individuais classificados como anomalias
dependendo de suas conexões na rede, [Aggaward (2015)]. Na árvore abaixo são
apresentadas algumas métodos propostos para tratar particulares tipos de conjunto
de dado.
Entre as abordagens para detecção de anomalias os método não supervisionados
são reportados na literatura como os mais utilizados, sendo que a maioria deles
baseiam-se nos conceitos de análise de agrupamento de dados. Diante disso, diversos
autores buscam realizar uma ampla revisão da literatura da área no intuito de
confirmar tal hipótese, [Das (2009), Steinbach et. al. (2014), Zimek et. al. (2012)].
Maiores detalhes são apresentados na revisão bibliográfica, no Capı́tulo 2.

6
Figura 1.3: Árvore de métodos classificados pelo tipo de conjunto de dado. Adaptado
de Zhang et al. (2007).

1.2 Motivação
Anomalias são instâncias excepcionais em algum sentido. No geral, elas contém
aspectos importantes da aplicação de interesse. Por essa razão, diferentes domı́nios
de aplicação tem se mobilizado para desenvolver e aplicar as técnicas de detecção de
anomalias, entre às diferentes areas do conhecimento que utilizam de detecção de
anomalias em suas análise de dados podemos citar: o monitoramento ambiental, a
medicina e a saúde pública, a localização e o rastreamento, e a logı́stica e o transporte,
[Hodge e Austin (2004)].
A qualidade dos dados é uma questão importante que envolve vários aspectos
como precisão, perfeição, integridade, consistência, atualidade, credibilidade, inter-
pretabilidade, rastreabilidade e acessibilidade dos dados, presença de ruı́do e de
novos eventos, valores faltantes, dados duplicados, entre outros fatores, [Pipino et al.
(2006)].
O processo de detecção de anomalia enfrenta diversas dificuldades, entre elas
esta a falta de dados rotulados, porque a tarefa de rotulagem dos dados não é
uma tarefa trivial. Tal dificuldade, em alguns casos se remete tanto a presença de
grandes tamanhos de amostras como a presença erros de classificação. Por exemplo,
um especialista em radiologia está predestinado a contradizer-se em 20% das vezes
quando avalia uma radiografia de tórax e a clássica como normal ou anormal. Assim
demanda-se de mais recursos e informações adicionais para se obter classificações
mais confiáveis do Homem, assim tal processo se torna mais caro e mais demorado,
[Kahneman (2011)].
Os métodos não supervisionados para a detecção de anomalias são preferidos
pelos pesquisadores, porque eles não depende de dados classificados como normal ou
anômalo, ou amostras treinadas classificadas. Ao contrário dos métodos supervisi-
onados e semi supervisionados que necessitam de dados rotulados para treinarem

7
previamente os seus modelos [Gogoi et al. (2011)].
Em aplicações reais é usual a presença de atributos de diferentes naturezas em um
mesmo conjunto de dados, e a ocorrência de anomalias nos dados pode ser provocada
pela interação entre os atributos categóricos e os atributos numéricos, mas usualmente
os métodos utilizados para detectar anomalias trabalham com atributos numérico ou
atributos categóricos. Assim, a análise individual dos atributos é insuficiente para
detectar todas as possı́veis anomalias presentes nos dados, [Katdare e Jin (2011);
Aggarwal (2015)].
Os aspectos do processo de detecção de anomalias são apresentados na Tabela 1.4.
Foram consideradas apenas as referências para tipos de dados mistos. No entanto, os
autores apresentam uma extensa revisão com 55 referências em que a maioria delas
detecta anomalias em conjuntos de dados númericos, e poucas são as referências em
que se trata anomalias em conjuntos de dados complexos, como pode ser visto pela
quantidade de referências que tratam dados mistos a seguir. Referente a abordagem
de subespaço na qual pretende-se utilizar para dados mistos, apenas é utilizada para
conjuntos de dados númericos com alta dimensão. Em particular nenhuma dessas
referências trata anomalia em dados mistos com alta dimensão, [Zhang et al. (2007)].
Sendo uma das razões que justifica a pesquisa e o desenvolvimento de uma técnica
para análise de anomalia em dados mistos.

Figura 1.4: Aspectos do processo de deteção de anomalias. Adaptado de Zhang et al.


(2007)
.

Com os avanços da tecnologia, atualmente é possı́vel obter e analisar grandes


quantidades de dados. Apesar disso, no geral, quanto maior a quantidade de dados,
maiores são as chances de ocorrerem tanto ruı́dos como novos eventos. O problema é
que a separação entre eles não é pura, por esta razão, a distinção dependerá do estudo
em questão, e do método utilizado. [Chandola et al. (2009); Pimentel et al. (2014)].
Assim, os conceitos precisaram ser revistos e novos métodos têm sindo desenvolvidos
para dados com alta dimensão. De modo que as abordagens não supervisionadas
para a detecção de anomalias passaram a considerar a detecção em subespaços, sendo
que anteriormente apenas se considerava a detecção no espaço completo, [Zimek,
Schubert, e Kriegel (2012)].
Combinar diferentes subespaços para detectar anomalias foi proposto inicialmente
em abordagem de feature bagging. Usar diferentes subespaços foi motivado pela
melhora da qualidade da predição geral de um detector de anomalias ensemble,

8
construı́do de individuais detectores de anomalias sobre diferentes subconjuntos de
atributos selecionados aleatoriamente, [Schubert et al. (2012)].
Em subespaços não define-se anomalia com respeito a um subespaço especı́fico,
mas como resultado da combinação de múltiplos escores obtidos de diferentes algorit-
mos de detecção de anomalias aplicados a todos os subespaços de interesse. Essa
técnica pode apresentar uma significativa melhora com relação a identificação de
anomalias e interpretação da sua presença nos dados, porque se visualiza distintas
configurações dos dados, e se aplica um mais conveniente método para cada subespaço.
No entanto, os escores anômalos usualmente são muito difı́ceis de serem comparados.
Além disso, na última década, as abordagens desenvolvidas em mineração de
dados para a detecção de anomalia têm desconsiderado os conceitos estatı́sticos, e
assim focado apenas na eficiência de algoritmos e deixado de lado a interpreção
dos resultados. Por essa razão na maioria das abordagens os escores anômalos não
auxiliam no processo de decisão para classificar uma instância como anômala ou
inlier, [Schubert et al. (2012)].

1.3 Hipóteses
Supõem-se neste trabalho que o processo de detecção de anomalias é induzido por
diversos fatores, entre eles podemos citar a natureza dos dados, os tipos de anomalias,
o método selecionado para a detecção de anomalias, o cenário de uma particular
aplicação. Vale ressaltar que a maioria dos algoritmos de análise de agrupamento
tradicionais formam grupos com formas convexas. No entanto, as formas naturais
dos grupos de dados têm comumente aparências curvilı́neas, [Aggarwal e Yu (2001)].
Assim, pressupõe-se que as abordagens em subespaços são ferramentas flexı́veis
de tal forma que pode-se bem tratar distintos cenários. Justificado por suas boas
propriedades, no que se remete a viabilizar o trabalho com uma ampla variedade de
tipos de conjuntos de dados, alta dimensionalidade dos dados, sobreposição de grupos,
presença de pontos nas fronteiras dos grupos, construção de grupos com formas
arbitrárias e da distinção de anomalias e ruı́dos, além de viabilizar a interpretação da
presença de anomalias nos dados, [Chandola et al. (2009); Pimentel et al. (2014)].

1.4 Limitações
O processo de detecção de anomalias não é um problema bem formulado. A
natureza dos dados, o natureza das anomalias, as restrições e as suposições coletiva-
mente constituem a formulação do problema. As principais questões abordadas neste
processo são descritas a seguir, [Zimek et al. (2012); Gogoi et al. (2011); Muller et
al. (2009); Zhang et al. (2007)]:

1. As abordagens para detecção de anomalias, no geral, não são simples e não


são genéricas. Cada domı́nio de aplicação impõe um conjunto de requisitos e
restrições, dando origem a uma formulação problema especı́fica para detecção
de anomalia;

9
2. Muitas vezes, os dados podem conter ruı́dos e novos eventos, e um se assemelhar
ao outro, de tal forma que, os ruı́dos sejam difı́ceis de serem distinguidos e de
serem removidos do conjunto de dados;

3. Obter nı́veis satisfatório com relação a taxa de detecção de anomalias e taxa


de falsos positivos é um desafio pouco alcançado pela maioria dos métodos de
detecção de anomalias. Pelo fato de que tais algoritmos ou visitam apenas uma
vez os dados e apresentam todas as anomalias de uma única vez, e sofrem de
altas taxas de falsos positivos. Ou visitam várias vezes os dados e apresentam
uma anomalia em cada iteração, e sofrem de altas taxas de falsos negativos;

4. Usualmente ter informação a respeito da classificação dos dados para o treina-


mento e para a validação de uma técnica é uma questão relevante no processo
de detecção de anomalias, mas o custo e a confiabilidade de dados rotulados
pode ser inviável em alguns casos;

5. A deteção de anomalias em conjuntos de dados complexos não é simples, e


poucos são os métodos desenvolvidos para deteção de anomalias para conjuntos
de dados complexos se comparados aos métodos desenvolvidos para conjuntos
de dados simples;

6. A maioria das abordagens de deteção de anomalias consideram uma única


visualização dos pontos no espaço de dados completo ao invés de analisar
múltiplas visualização dos pontos em subespaços; e realiza-se comparações
entre um candidato anômalo com todos os demais pontos da base de dados
ao invés de considerar subconjuntos de referência, isto é, uma vizinhança de
pontos para esse candidato.

7. Selecionar um conjunto de referência para determinar comportamento usual de


uma determinada aplicação real, não é trivial. Muitas vezes um comportamento
usual pode evoluir ao longo do tempo, e caracterı́sticas de referência atuais
pode não serem suficientemente representativas no futuro;

8. Em um espaço de alta dimensão, pressupõem-se que poucos são os subespaços


relevantes, porém selecionar subespaços relevantes não é trivial.

9. Existe um questionamento se anomalias podem ser definidas em termos das


propriedades de subespaço. Os métodos propostos de subespaço para detecção
de anomalias são na maioria recentes e concentram-se principalmente em
dois aspectos do problema: como identificar subespaços contendo instâncias
anômalas, e como construir escores baseados em diferentes dimensionalidades
de alguns subespaços.

10. Os escores anômalos obtidos de mútiplos algoritmos de detecção de anomalia


podem se diferenciar com relação ao seus sentidos, aos seus intervalos, em seus
contrastes, em suas escalas. Desta forma, não são facilmente comparáveis ou
interpretáveis. Maiores detalhes na seção 3.7.

10
11. A maioria dos algoritmos de agrupamento tradicionais apresentam as limitações
descritas: (i) os algoritmos são otimizados para encontrar grupos, e não pontos
anômalos; (ii) a acurácia de detecção de anomalias depende da eficiência do
algoritmo em capturar a estrutura dos grupos; (iii) um conjunto de pontos
anômalos que são similares entre si são considerados como um grupo ao invés
de um grupo de ruı́dos ou de anomalias; (iv) as estimativas de seus parâmetros
exercem grandes influências no resultado final.

1.5 Objetivos
Pesquisar, desenvolver e comparar técnicas não supervisionadas para identificar
observações anômalas em conjunto de dados mistos tendo três âmbitos de interesse:
cientı́fica, pessoal e social. No que concerne ao conhecimento cientı́fico, a futura
pesquisa preencherá lacunas existentes no âmbito teórico. Tais lacunas devem-se as
informações de difı́ceis acesso, uma vez que a bibliografia especı́fica ao tema abordado
é escassa. Com relação ao interesse como pesquisador, a pesquisa contribuirá na
confiabilidade das inferências e na descoberta de fatores relevantes em diversas áreas
do conhecimento que trabalham com bases de dados contaminadas com atributos
mistos. Uma vez que uma nova técnica seja criada, a uma contribuição no âmbito
cientı́fico é realizada. Do ponto de vista social, a técnica será mais uma ferramenta
para detectar anomalias com a combinação de conceitos de mineração de dados e de
estatı́stica, porque buscará unir eficiência e a interpretação da presença de anomalias
em um conjunto de dados.

1.5.1 Especı́fico
1. Buscar por trabalhos cientı́ficos o estado-da-arte relacionados com os objetivos
de interesse;

2. Buscar por algoritmos não tradicionais de análise de agrupamentos robustos


que formam grupos com formas arbitrárias;

3. Buscar por técnicas que identificam subconjuntos de atributos relevantes, e


subconjuntos de referência;

4. Buscar por técnicas de regularização e normalização de escores anômalos;

5. Buscar pela teoria ensemble para combinar os escores anômalos obtidos como
resultados da aplicação de diversos algoritmos para detecção de anomalias;

6. Realizar estudos de caso em bases de dados públicas contaminadas estudadas


previamente, e em novos conjuntos de dados;

1.6 Estrutura do texto


A organização do texto foi feita da seguinte forma: no Capı́tulo 1 foram apresen-
tadas a contextualização, a motivação do tema, e uma visão geral dos tipos de dados,

11
dos objetivos, das hipóteses e das lacunas da área. No Capı́tulo 2 é apresentado um
resumo dos principais pesquisas, o estado da arte, relacionadas aos objetivos desta
tese. Por sua vez, no Capı́tulo 3, são descritos os métodos que serão pesquisados. No
Capı́tulo 4 são apresentados os experimentos preliminares realizados com os algorit-
mos de análise de agrupamento que formam a base da maioria dos métodos dessa
área. Os planejamentos dos experimentos juntamente dos detalhes dos resultados
obtidos de cada problema proposto são descritos nesse Capı́tulo. No capı́tulo 5 são
apresentas as propostas de pesquisa e desenvolvimento desta tese.

1.7 Sı́ntese do capı́tulo


Neste capı́tulo foram apresentadas os conceitos gerais de um processo de detecção
de anomalias. Na introdução foram descritos as definições mais comuns dada para
uma anomalia, os tipos de anomalias, e os tipos de conjuntos de dados. Comumente
uma anomalia é caracterizada dependendo dos objetivos do estudo e do cenário
analisado. A motivação justificou a importância desta pesquisa, em que buscou
destacar a importância de utilizar uma abordagem não supervisionada e a necessidade
do desenvolvimento de técnicas nessa área. As limitações indicam as dificuldades
enfrentadas nesta pesquisa devido apresentarem muitos tópicos a serem tratados,
nas quais depende do cenário e dos objetivos de cada aplicação.

12
Capı́tulo 2

Revisão Bibliográfica sobre


Detecção de Anomalias

Neste capı́tulo é apresentado uma revisão da literatura com respeito as técnicas


para detecção de anomalias. A revisão realizada procurou investigar principalmente
os métodos não supervisionados, mas no geral procurou-se obter uma visão ampla
desse processo. O conteúdo desse capı́tulo está organizado nas seguintes seções: a
Seção 2.1 é apresentado um ideia geral de como o processo de detecção de anomalias
é tratado pela literatura; nas Seções 2.2 e 2.3 são abordados os primeiros conceitos
utilizados para detecção de anomalias, e nas Seções 2.4 é apresentada uma revisão
em análise de agrupamento tradicional.

2.1 Introdução
O processo de identificar anomalias em dados é uma área que esta em constante
desenvolvimento, na qual acumula uma grande quantidade de métodos. Apesar
disso, esse processo não esta bem definido por não existir uma universal abordagem
para detectar anomalias. Nesse cenário, é impossı́vel descrever todos os processos
avaliados, mas esta revisão foi realizada de uma forma geral e diversificada com
intuito de identificar o problema de um âmbito geral.
Um amplo domı́nio do conhecimento tem mostrado interesse na sua aplicação.
Assim, os trabalhos publicados na área apresentam uma grande diversidade de
aplicações e métodos. De uma forma geral as técnicas são baseados em: métodos de
classificação, análise de agrupamento [Jiang et al. (2006)], projeção aleatória [ Ye
et al. (2009)], grafos [Gogoi et al. (2011); Bhuyan et al. (2014), Yin et al. (2014)
], proximidades[ Orair et al. (2010)], densidade [ Ning e Tsung (2012); Breunig et
al. (2000)], profundidade [Chen et al. (2009)], distribuição de probabilidade [Fraley.
e Raftery (2011)], ambientes distribuı́dos propostas intrusivas [Tak et al. 2009] e
ambientes distribuı́dos propostas não intrusivas [Natarajan et al. 2012]. Diversos
trabalhos fornecem extensas revisões com relação ao processo de deteção de anomalia,
[Aggarwal (2013), Zimek et. al. (2012), Chandola et al. (2009), Hodge e Austin
(2004), e Zhang et al. (2008)].
Existem técnicas de detecção de anomalias mais genérica e podem tratar vários
domı́nios de aplicação, enquanto outras são diretamente ligadas a um domı́nio

13
de aplicação particular. Mas, no geral, considera-se nesse processo a seleção de
um método: em termos do conhecimento das caracterı́sticas do(s) atributo(s), da
escalabilidade, da dimensionalidade, da disponibilidade de dados rotulados, do(s)
tipo(s) de anomalia(s) de serem detectadas, do custo computacional, da capacidade
preditiva do método, [Gogoi et al. (2011)].
Existem dois aspecto em detecção de anomalia em que os dados podem estar
inseridos: um aspecto é estática (em inglês, off-line) e a outra é contı́nua (em
inglês, on-line). A detecção de anomalia on-line é significativamente diferente se
comparada a detecção de anomalia (off-line). Os dados on-line as informações chegam
continuamente em um ritmo rápido. A ideia mais trivial é que o comportamento
usual das informações altera-se no decorrer do tempo, assim é preciso atualizar tal
comportamento dinamicamente com registros que são provavelmente normais, pois
admite-se que a presença de um dado anômalo é rara. Um problema presente quando
se trabalha com dados on-line é que um novo grupo é formado com um dado que
chega, e os usuais métodos para detecção de anomalias não são capazes de distinguir
se um ponto que acabou de chegar na base de dados é anômalo ou é normal, nem no
momento quando ocorre a mudança, [Bhuyan et al. (2014)].
As pesquisas em detecção de anomalia iniciaram na área de Estatı́stica, mas
atualmente estão mais concentradas em Mineração de Dados, em que usualmente
se considera a noção de vizinhança ao invés da noção de variabilidade dos dados.
Muitas das técnicas de detecção de anomalias estão presentes em aprendizado de
máquina (AM) que é uma área de pesquisa da Inteligência Artificial (IA) que esta
dividida em três grandes classes: aprendizado supervisionado, semi-supervisionado e
não-supervisionado, [Chandola et al. (2009)], Knorr e Ng (1998)].
A análise de dados clássica utiliza o conceito de profundidade, na qual não se
admiti uma distribuição de probabilidade para os dados. As instâncias são organizadas
em camadas convexas no espaço, e uma anomalia é uma instância que assume um
valor na baixa profundidade. Esse método é computacionalmente inviáveis para
conjuntos de dados com mais do que três dimensões, [Gao e Tan (2006)].
As seguir são apresentadas revisões sobre os métodos baseados: em proximidade,
em técnicas estatı́sticas, e em análise de agrupamento.

2.2 Métodos baseados em proximidade


Os métodos baseados em distância para à deteção de anomalias apresentam uma
nı́tida interpretação geométrica. Assim, pode-se calcular um fator anômalo a partir
de uma função F : x 7→ R para caracterizar uma anomalia de forma quantitativa. A
função F depende da distância entre o ponto o e os demais pontos R no conjunto de
dados, [Gogoi et al. (2011)].
As medidas de distância podem ser calculadas para os tipos de atributos especifi-
cados a seguir,

1. Para um atributo contı́nuo - a medida mais popular é a distância Euclidiana


que é uma medida sensı́vel a presença de anomalias no conjunto de dados;

2. Para um atributo categórico - um simples coeficiente combinado;

14
3. Para um conjunto de atributos contı́nuo é usual utilizar uma medida de distância
ou de similaridade para cada atributo e então combina-los.

4. Para um conjunto de atributos mistos, um proposta de distância definida para


o espaço dimensional completo é dada por

Dist(oi , oj ) = Σm 2 mc
t=1 (wt (o1t − o2t )) + Σt=1 δ(wt (o1t , o2t )),
r
(2.1)

em que oi e oj é a i-ésima e a j-ésima instância, ∀i, j = 1, · · · , n; mr é a


quantidade de atributos numéricos e mc é a quantidade de atributos categóricos;
wt é um peso, e δ é uma função binária que assume valores 0 ou 1.

É relativamente fácil estimar a proximidade para atributos numéricos, o que


não é trivial, nos casos de atributos categóricos. Na maior parte das medidas de
distância não considera-se a distribuição dos dados, enquanto calcula-se a distância
entre quaisquer dois valores de atributos categóricos, o que é capturado naturalmente
para atributos numéricos.
Nos métodos de aprendizado supervisionado a distância é na verdade uma função
da distribuição dos dados. A função de distância deve também tomar a relação
significante intra atributos, e então uma medida de distância binária não é apropriada
para trabalhar com problemas de aprendizagem de máquinas, em que uma função de
distância binária δ atribuı́ 1 para nı́veis diferentes, e zero caso contrário. Por outro
lado, no aprendizado não supervisionado tal conceito é supostamente válido.
A distância quadrática de Mahalanobis é um método popular para identificar
anomalias multivariada. A técnica supõem que os dados seguem uma distribuição
normal multivariada então a distância quadrática de Mahalanobis (M D2 (oi , D))
segue aproximadamente uma distribuição Chi quadrado com p graus de liberdade,
χ2p , em que p é o número de atributos, [Jackson (2004); e Finch (2011)].
Seja a matriz Dn x p dada,
 
o11 o12 · · · o1p
 o21 o22 · · · o2p 
D=
 
.. .. . . .
. ..

 . . 
on1 on2 · · · onp

A distância quadrática de Mahalanobis é calculada para cada instância. A


expressão M D2 (oi , D) é dada como segue

M D2 (oi , D) = (oi − o¯i )S −1 (oi − o¯i )t ,

em que oi é a i-ésima linha da matriz D, ō é o estimador de locação multivariado


−1
e S é a estimativa da matriz de covariâncias não viesada.
O método considera como anomalia todos os pontos em que M D2 (oi , D) é maior
do que o quantil da distribuição chi quadrado dado o seu grau de liberdade ao nı́vel
de confiança de (1 - α1 )%, isto é, M D2 (oi , D) > χp,1− 1 .
α

15
2.3 Métodos estatı́sticos
Os primeiros trabalhos realizados em detecção de anomalias foram da área de
Estatı́stica. Tais abordagens buscam por técnicas robustas que sejam capazes de
capturar a real variabilidade dos dados e assim as estimativas dos parâmetros não
sejam viesados. Simples medidas resumos, a medida de assimetria e de curtose da
distribuição foram usadas em Zhang e Kosecká (2006) para separar anomalias de
pontos de referência, mas o uso de tais medidas está restrita a dados gerados de uma
única distribuição.
Os métodos estatı́stico utilizados para detecção de anomalias se dividem em:
métodos paramétricos que se baseiam em distribuições de probabilidades para os
dados, na qual tem sido utilizados conjuntamente com abordagens supervisionadas
para se obter padrões gerais para anomalias. Nesse contexto, uma anomalia é uma
instância que não bem se ajustou ao modelo proposto, [Jiang (2009)e Kovács et .al,
(2004)], e método não paramétricos que não assumem conhecida a distribuição dos
dados, por exemplo, os métodos de alisamento, de binning, de bagging, os baseados
em profundidade, testes de hipóteses, análises gráficas e análises de diagnósticos,
[Gao e Tan (2006)].
Em estudos de observações independentes, uma popular abordagem são os modelos
de mistura também denominados por agrupamento de modelos utilizado para detectar
anomalias e novidades. Uma novidade é um padrão nos dados que surgiu devido
a informação não identificadas ou é um padrão não identificado anteriormente
no estudo. Os modelos de mistura consistem de uma soma ou composição de
distribuições de probabilidade e/ou função densidade de probabilidade dependendo
do tipo do atributo analisado. A detecção de novidade vem sendo muito pesquisada
em aplicações envolvendo grandes volumes de dados adquiridos de sistemas crı́ticos.
Em estudos de observações dependentes, como as séries temporais que é usual
determinar o contexto (ou proximidade) do evento devido termos o tempo que
determina a posição do evento sobre a sequência toda, [Salvador e Chan (2003)],
e no caso, de dados espaciais, em que pode-se ter atributos que determinam a
localização, como a latitude e a longitude, [Kou et al. (2006)]. Nesse contexto, os
mais populares modelos são os modelos de séries temporais univariados, como os
modelos autorregressivos de médias móveis (ARMA), autorregressivos integrados de
médias móveis (ARIMA), e autorregressivos integrados de médias móveis (ARIMA),
[ Manish Gupta et al. (2013)]; soma acumulativa (CUSUM), [Montgomery (1996);
Das (2009)].
A detecção de anomalias em dados dependentes não é trivial, porque é necessário
identificar instâncias com surpreendente combinação de propriedades temporais, e
como eles modo serem camuflados na mudança da tendência, da sazonalidade, ou
do cı́clico. De tal forma que as técnicas para a detecção de anomalia temporal são
muito diferentes se comparadas as técnicas de detecção de anomalia gerais.

2.4 Métodos baseados em análise de agrupamento


Tradicionalmente, os algoritmos de análise de agrupamento formam grupos por
semelhança entre pontos. Os pontos que não pertencem a nenhum grupo, ou que

16
estão distantes dos centros dos grupo, ou que pertencem aos pequenos e dispersos
grupos devem ser investigados, e na maioria dos casos são assumidos serem anômalos,
[Chandola et. al. (2009), Amer (2011)].
O critério de homogeneidade dentre os grupos, e o tamanho de um grupo depende
do problema. O que no geral ambos são difı́ceis de serem definidos na prática. Uma
solução é definir um limiar para se estimar o tamanho dos grupos, [Sim et al. (2013)].
Pode-se considerar que existem três diferentes classes de algoritmos de agrupa-
mento: os algoritmos combinatórios, os modelos de mistura, e os de modo de busca.
Na árvore são apresentadas as subáreas de análise de agrupamento. A parte não
tradicional do agrupamento de dados foi desenvolvida para tratar aplicações com
conjuntos de dados com alta dimensão.

Figura 2.1: Métodos para análise de agrupamento de dados tradicional e não


tradicional. Adaptado de Sim et al. (2013)

A seguir é apresentada uma revisão dos principais conceitos dos algoritmos de


análise de agrupamento que se dividem usualmente em agrupamento hierárquico e
agrupamento particionado.

2.4.1 Métodos hierárquico


Nos algoritmos agrupamento hierárquico tradicionais, gera-se uma hierarquia de
grupos, usualmente representada em um dendrograma, na qual representa a evolução
do agrupamento em uma estrutura em árvore, em uma escala de medida de distância.
O dendrograma é um complementar método não linear interpretável para estudos
com no máximo 100 elementos. Ele frequentemente fornece uma boa impressão visual
com relação ao inerente número de grupos. Tal abordagem permite explorar dados de
diferentes nı́veis. Eles são divididos em duas categorias: divisiva(em inglês top-dow )
e aglomerativa (em inglês botton-up), [Jain e Dubes 1988; Kaufman e Rousseeuw
(1990)].
Na abordagem divisiva, o processo inicia com todas as instâncias no mesmo
grupo e vai dividido sucessivamente até que cada grupo contenha um único elemento.

17
Uma vez que duas instâncias foram separadas, elas não mais serão agrupadas no
mesmo grupo. A qualidade desse agrupamento depende de critérios previamente
estabelecidos, [Rodrigues (2009)].
Na abordagem aglomerativa, cada instância é um grupo, e a cada etapa do
processo, os dois grupos mais similares são unidos até que, ao final, exista um único
grupo formado por todos as instâncias. Uma vez que unidas duas instância em um
mesmo grupo, elas não mais se separam. A qualidade desse agrupamento depende
fortemente do método de proximidade selecionado.
Para separar ou dividir subconjuntos de pontos em vez de pontos individuais, a
distância entre pontos individuais tem de ser generalizada para a distância entre os
subgrupos denominada de métrica de ligação. As principais métricas de ligação entre
grupos [Murtagh (1985), Olson (1995)] são a ligação simples ( em inglês single link ),
a ligação média (em inglês mean link ), e a ligação completa (em inglês complete link ).
Formalmente,

d(C1 , C2 ) = operacao(d(oi , oj ), oi ∈ C1 , oj ∈ C2 )
A fórmula atualizada de Lance-Williams é uma generalização das ligações métricas
ilustradas acima,

d(Ci , Cj , Ck ) = a(i)d(Ci , Ck ) + a(k)d(Cj , Ck ) + bd(Ci , Cj ) + cd(Ci , Ck ) − d(Cj , Ck ),

em que a, b, c são coeficientes das particulares ligações, e ∀ i, j, k = 1, · · · , n.


Esta fórmula expressa uma métrica de ligação entre a união de dois grupos e o
terceiro grupo em termos de componentes subjacentes.
As vantagens do agrupamento hierárquico estão relacionadas a: flexibilidade
incorporada em relação a gradual nı́vel, facilidade em trabalhar com quaisquer
formas de similaridade ou distância, e consequentemente, aplicável a quaisquer tipos
de atributo. Por outro lado, os problemas se remetem a: não revisitarem os dados
uma vez construı́dos os grupos. Além disso, quando o número de amostras observadas
é relativamente grande, os algoritmos aglomerativos tem um alto custo computacional
e alta demanda de memória, [Steinbach et. al. (2014)].
Os algoritmos hierárquicos divisivos Diana, Self-organizing tree algorithm (SOTA),
e minimum spanning tree (MST) são um dos poucos algoritmos hierárquicos divisivos.
O algoritmo SOTA é uma rede não supervisionada com uma estrutura em árvore
de divisão hierárquica binária. Ele foi utilizado inicialmente para reconstrução de
filogenética, [Dopazo e Carazo (1997)], e em seguida foi utilizado para agrupar dados
de gene microarray.
Algoritmo de agrupamento baseado na teoria dos grafos é baseado na construção
da Árvore de Expansão Mı́nima - MST ( em inglês Mı́nimum Spanning Tree ) dos
dados [Zahn (1971)], sendo então apagadas as extremidades da árvore com o maior
comprimento, para gerar grupos. O método é análogo ao single link, é eficiente
apenas para pequenos conjuntos de dados.
Os algoritmos de agrupamento hierárquico que utilizam de métricas de ligação
baseadas na distância euclidiana para dados espaciais naturalmente predispõem
grupos de formas convexas adequadas. O algoritmo de agrupamento hierárquico
aglomerativo CURA ( Clustering Using REpresentatives) é capaz de encontrar

18
aglomerados de diferentes formas e tamanhos, e é insensı́vel a anomalias, pois usa de
amostragem, [Berkhin].
Nas publicações de Guha et al. (1998, 1999) são apresentados os algoritmos
agrupamentos robustos hierárquicos aglomerativos para conjuntos de dados com de
baixa dimensão, denominados CURA e ROCHA, respectivamente. A diferença entre
ele é que o algoritmo CURA foi planejado para trabalhar com atributos numéricos, e
o algoritmo ROCHA para trabalhar com atributos categóricos.
O algoritmo de agrupamento robusto para dados categóricos - ROCHA, [Guha
et al. 1999] é análogo ao algoritmo CURA, e eles têm como caracterı́sticas: (1)
são agrupamento hierárquicos, (2) aglomeram continuamente até que determinado
número de grupos seja formado, e (3) utiliza de dados de amostragem. Os conjuntos
consistem em pontos com um elevado grau de conectividade entre pares de pontos
dentro de um grupos.
O ROCHA utiliza da função objetiva, e quando trabalha-se com atributos ca-
tegóricos é necessário preocupar-se com a presença de possı́veis erros de classificação,
erros de entrada de dados, e a duplicação de instâncias. Sendo que os erros de
classificação são definidos como classes fora do léxicos do atributo, e um erro de
entrada de dados, por exemplo, são os erros de ortografia, e a duplicação são en-
tradas duplicadas distintas em uma lista para um mesmo destinatário, [Elavarasi e
Akilandeswar (2014)].

2.4.2 Métodos particionado


Os algoritmos de agrupamento particionado formam grupos por iteração de
realocação de pontos, e procuram minimizar a variabilidade intra grupo e bem
trabalham com grandes volumes de dados. Naturalmente formam grupos de formas
convexas. Requerem a estimativa do número de grupos k. A seguir são apresentados
alguns dos populares algoritmos de agrupamento particionados.

Algoritmo k-médias
O algoritmo de agrupamento particionado mais conhecido é o k-médias (em inglês
k-means) [Hartigan (1975)]. Ele não é um algoritmo robusto e a presença de anomalia
nos dados pode degradar severamente o seu desempenho, [Tan et. al. (2006)].
É um método iterativo que busca minimizar a soma dos quadrados dentre os
grupos para um número previamente determinado de grupos, [Hartigan e Wong
(1979)]. O algoritmo começa com uma estimativa inicial para os centros dos grupos
(centroides), os grupos são formados por instâncias próximas aos centroides. A
cada iteração, os centroides são atualizados, e todo o processo é repetido até que os
centroides já não se movam mais.
O resultado do k-médias depende da inicialização dos valores dos centroides no
primeiro passo e da estimativa do número de grupos k . Uma alternativa é correr
várias vezes o algoritmo para reduzir o erro de aproximação aos valores iniciais dos
centroides com o objetivo de que o algoritmo encontre o mı́nimo global da soma
de quadrados total intra grupo, e com relação a k, por exemplo, pode ser estimado
utilizando um adequado algoritmo hierárquico ou um gráfico escarpa (em inglês
screen plot).

19
A média amostral dos valores dos elementos de um determinado grupo é a
estimativa dada para o centroide cj . À sua formulação é dada a seguir,

1 nj (j)
cj = Σ x (2.2)
nj i=1 i
O objetivo do k-médias é de minimizar a soma de quadrados total intra grupo
definida por,

2
nj (j)
Σkj=1 Σi=1 xi − cj → min, (2.3)

(j) (j)
em que ||xi − cj ||2 é a distância Euclidiana entre um elemento xi e o centroide
cj do grupo j, no entanto outra medida de distância pode ser utilizada. A função
dada mostra claramente que nem todas as distâncias pareadas são necessárias para o
algoritmo, mas apenas as distâncias dos elementos de um grupo ao seus respectivos
centroides.

Algoritmo k-medoides
O algoritmo k-medoides e k-médias diferem-se, no geral, com relação a estimativa
dos centroides dos grupos. No caso do k-médias considera-se a média amostral, e o
k-medoides considera as localizações que bem representam os grupos.
Pelo fato, da média aritmética não ser uma estimativa robusta consequentemente o
algoritmo k-médias também não é. Por outro lado, temos que o algoritmo k-medoides
que é robusto, desta forma apresenta um desempenho satisfatório na presença de
anomalias nos dados, porém apresenta maior tempo computacional se comparado ao
k-médias.
O algoritmo Partitioning Around Medoids (PAM) busca pelos melhores k-medoides
nos dados e bem trabalha com amostras pequenas. Para grandes bases de dados
foi desenvolvido o algoritmo Clustering LARge Applications (CLARA) que realiza
uma amostragem, selecionando subamostras baseada na média de dissimilaridade
do conjunto de dados e para cada uma das subamostras é implemento um PAM.
Tal procedimento de amostragem permite uma melhora na eficiência do tempo
computacional. [Kaufman e Rousseeuw (1990)].

Agrupamento baseado em densidade


Os algoritmos particionados baseados em densidade formam grupos de formas
arbitrárias e buscam por elementos densamente conectados, também consideram a
distância entre os pontos, e não são afetados pela presença de anomalias nos dados.
Eles são inadequados para trabalharem com conjuntos de dados categóricos e com
altas dimensões, [Gogoi et al. (2011)].
A ideia do algoritmos de agrupamento baseado em densidade de pontos é a de
formar grupos por áreas de alta densidade e separa- los por áreas de baixa densidade
de pontos. As áreas de baixa densidade de pontos são consideradas locais ruidosos.
Na sua estrutura ele considera uma vizinhança radial de pontos no espaço e os grupos

20
são formados por conectividade de densidade de pontos. O mais popular método de
agrupamento baseado densidade é DBSCAN.
O processo realizado pelo DBSCAN é descrito: se a quantidade de pontos
conectados for menor do que o número mı́nimo de pontos, Minptos, a amostra é
considerada como uma anomalia ou como uma instância que esta na fronteira de um
grupo. Um ponto está na vizinhança de um grupo se a distância dele ao centro desse
grupo é menor do que um valor ε. Se a quantidade de pontos vizinhos for maior ou
igual ao Minptos um grupo é formado, caso contrário a região é considerada ruidosa.
O algoritmo transita por todos os pontos várias vezes realizando o processo descrito.
As limitações do DBSCAN são descritas: exige dois parâmetros ε e Minptos
inicialmente para execução do algoritmo, e é sensı́vel ao valor das estimativas desses
parâmetros, não consegui agrupar dois conjuntos de dados com grandes diferenças de
densidade, e perde à sua eficiência em dados com alta dimensão, [Tan et. al. (2005 );
Swathi et. al. (2012)].
O algoritmo DBSCAN apresenta um modelo de agrupamento bem definido.
Semelhante ao agrupamento baseado em ligação, que baseia-se em pontos de conexão
dentro de certos limites de distância. No entanto, ele apenas conecta-se aos pontos
que satisfaçam um critério de densidade, que é definida como um número mı́nimo de
pontos internos dado o raio ε. Esse algoritmo respeita a forma natural dos dados
e tem uma complexidade computacional baixa, devido exigir um número linear de
consultas de intervalo no conjunto de dados. Esse algoritmo é capaz de identificar os
centros dos grupos e as anomalias, mas não é capaz de separar os ponto das fronteiras
dos pontos pertencentes a um grupo, portanto, não há necessidade de executá-lo
várias vezes. Por essa, razão é um método inadequado para casos em que os grupos
não são bem separados.
A seleção do parâmetro ε não é trivial. Uma sugestão é o gráfico K-dist para
identificar o valor de ε e analisar dos nı́veis de densidade dos pontos, [Swathi et. al.
(2012)]. O algoritmo OPTIC (Ordenação de Pontos para Identificar a Estrutura de
Agrupamento) é uma generalização do DBSCAN e produz um resultado relacionado a
hierárquica da agrupamento. Diferente do algoritmo DBSCAN no algoritmo OPTIC
não é exigido a estimativa de ε para à sua execução.
As principais desvantagem dos algoritmos DBSCAN e OPTIC é que eles buscam
por áreas de baixa densidade para determinar as fronteiras do grupo. Além disso, eles
não podem detectar estruturas de fragmentação intrı́nsecas que são predominantes
na maioria dos dados reais. Uma variação de DBSCAN é o EnDBSCAN (Embedded
Cluster Using Density Based Techniques ) que detecta eficientemente esses tipos de
estruturas, [Barua et. al. (2012); Roy et. al. (2005)].

2.4.3 Agrupamento probabilı́stico


A análise de agrupamento baseada em modelos probabilı́sticos pressupõem que o
conjunto de dados completo foi gerado por diferentes distribuição de probabilidade,
ou seja, os dados foram gerados por um modelo de mistura.
O número de grupos k é igual a quantidade de distribuição de probabilidades
misturadas no modelo de mistura. Uma anomalia é uma instância que não bem se
ajustou ao modelo de mistura, [Fraley e Raftery (2011)].

21
Formalmente, admite-se que existem k distribuições de probabilidade e um
conjunto de parâmetros Θ = {θ1 , · · · , θk }, em que θj é o subconjunto de parâmetros da
j-ésima distribuição de probabilidade. Um tamanho n de instâncias são consideradas,
O = {o1 , · · · , on }.
A probabilidade que a j-ésima distribuição gerar a instância oi é dada pela
probabilidade por P (C = cj ), para 1 ≤ j ≤ k e Σkj=1 P (C = cj ) = 1 . A probabilidade
de uma instância oi ser gerada é , [Tan et. al. (2006)].

k
X k
X
P (oi ; Θ) = P (oi ∩ Cj = cj ) = P (oi |C = cj )P (C = cj ) (2.4)
j=1 j=1

A probabilidade do i-ésimo elemento pertencer a j-ésima distribuição é dada por


P (oi ∩ Cj = cj ), [Fraley e Raftery (2011)]. Se os elementos são gerados de forma
independente então a distribuição de mistura é o produto da probabilidade de cada
instância, oi .

n X
Y k
P (χ|Θ) = P (O = oi |C = cj )P (C = cj ) (2.5)
i=1 j=1

A abordagem mais simples de agrupamento baseado em modelo para k grupos


pressupõem que os elementos dos grupos foram gerados por distribuições normais
multivariadas com vetores de médias distintos e idênticas matrizes de variâncias e
covariâncias na forma σ 2 I, na qual obtém-se grupos esféricos de tamanhos iguais.
Neste mesmo sentido, e que é realizado o k-médias ou, mais geralmente, o agrupamento
fuzzy c-means, em que espera-se grupos de formas esféricas. Uma situação complexa
é quando gera-se grupos esféricos de diferentes tamanhos ou quando a matriz de
variâncias e covariâncias não tem forma diagonal. Nesse caso ao invés de esferas as
formas dos grupos elı́pticas.
O agrupamento baseado em modelo tem uma boa fundamentação teórica. Os
estimadores de máxima verossimilhança não são viesados e têm variância uniformente
mı́nima, ao contrário dos estimadores obtidos pela maioria dos métodos de análise
de agrupamento que são viesados. Além disso, um modelo complexo geralmente é
capaz de explicar melhor aos dados. Os seus resultados no sistema de agrupamento é
facilmente interpretável. No entanto, um modelo complexo pode sofrem do problema
de superajuste, devido à sua grande quantidade de parâmetros a serem estimados.
Para que não ocorra o superajuste restringi-se a complexidade do modelo, por
exemplo, utilizando o algoritmo de expectativa de maximização - EM, se o número
de elementos em um grupo for grande.
O logaritimo da verossimilhança serve como uma função objetiva para se obter o
método EM, [Dempster et al. (1977); McLachlan e Krishnan (1997)]. O EM é uma
otimização iterativa realizada em duas etapas. Na primeira etapa (E) calcula-se as
estimativas das probabilidades, P (oi |C = cj ), e na segunda etapa (M) encontram-se
as estimativas para os parâmetros do modelo de mistura que maximizam o log-
verossimilhança. A função de verossimilhança L é definida por

22
n
Y
L(θ; o1 , · · · , on ) = f (o1 ; θ) · f (o2 ; θ) · · · f (on ; θ) = f (oi ; θ), (2.6)
i=1

Aplicando o logaritimo natural em L têm-se,

n
X
l(θ; o1 , · · · , on ) = lnf (oi ; θ). (2.7)
i=1

Para atributos discretos denomina-se distribuição de probabilidade, P (oi ; Θ), e


no caso de atributos contı́nuos temos uma função de densidade de probabilidade,
f (oi ; Θ), ∀i ∈ {1, · · · , n}, em que θ é representa o conjunto de parâmetros a serem
estimados.
Uma proposta de modelo de mistura é o algoritmo de agrupamento AUTOCLASS
que foi construı́do a partir da teoria Bayesiana e considera uma ampla variedade de
modelos probabilı́sticos, por exemplo Bernoulli, Poisson, Gaussiana, e log-normal.
No entanto, existem casos em que a forma de um ou mais grupos não consegue ser
representada por um modelo matemático. Quando se desconhece a distribuição dos
elementos de um grupo é recomendado utilizar técnicas não paramétricas, [Cheeseman
e Stutz (1996)].

2.5 Sı́ntese do capı́tulo


Neste capı́tulo foi apresentada uma revisão de alguns dos tradicionais métodos
utilizados para a deteção de anomalia. Essa revisão teve como objetivo conhecer
as caracterı́sticas das populares técnicas em deteção de anomalias baseadas em:
proximidade, densidade, estatı́stica, e dos algoritmos de análise de agrupamento
tradicionais. As técnicas investigadas nesta revisão perdem às suas eficiências quando
aplicadas a conjuntos de dados com altas dimensões, e identificam anomalias globais.

23
Capı́tulo 3

Métodos para Detecção de


Anomalias

Neste capı́tulo são apresentadas propostas de métodos a serem investigadas.


O conteúdo desse capı́tulo está organizado nas seguintes seções: na Seção 3.1 é
introduzido a abordagem de deteção de anomalias local, na Seção 3.2 são descritos
alguns conceitos a respeito de deteção de anomalia em conjunto de dados misto,
na Seção 3.3 são apresentados alguns algoritmos de agrupamento de dados para
dados com altas dimensões; nas Seções 3.4, 3.5 3.6 são introduzidos os conceitos
de análise de agrupamento em subespaço, de projeções e de dados correlacionados,
respectivamente. Na Seção 3.7 é descrito a respeito da saı́da de algoritmos de deteção
de anomalia, os escores anômalos.

3.1 Deteção de anomalias local


As abordagens de detecção de anomalias não supervisionadas estão divididas
em duas categorias: global e local. Na abordagem global realiza-se comparações
considerando o conjunto de dados completo Dn x p . Na abordagem local seleciona-se
um conjunto de referência local N a cada vez que se realiza uma comparação.
Resolution based Outlier Factor - ROF é um modelo para detectar anomalias que
combina os conceitos de anomalia local e global, na qual aborda a ideia de alteração
do número de instâncias que representam uma vizinhança, [ Fan et al. (2006)].
Na abordagem local pressupõem-se que os atributos de Dn x p foram gerados por
diferentes distribuições de probabilidade, isto é, o conjunto de dados foi gerado por
distintos mecanismos, sendo que cada mecanismo gerou uma quantidade significante
de instâncias. Então o efeito da concentração será tipicamente menos severo para
consultas baseadas em pontos de um grupo, especialmente quando os grupos são
bem separados, [Schubert et al (2014)].
A definição de N é baseada no conceito de localização de vizinhos de um ponto,
no sentido de distância entre os pontos. A localidade é comumente definida por
kNNs, um intervalo de consulta com um raio ξ, uma vizinhança espacial baseada em
grafos adjacentes ou polı́gono adjacentes, ou um contexto temporal em termos de
uma janela deslizante.
Anomalia local foi introduzida em Breunig et al. (2000) quando apresentou o fator

24
de anormalidade local - LOF. O LOF é um sistema que resulta em um escore anômalo
para cada instância. É baseado na noção de um dados ponto conectado densamente
à sua vizinhança. Os pontos localizados em regiões de muito baixa densidade são
classificados como anomalias. As estimativas das densidades são obtidas usando de
distâncias entre instâncias.
Os procedimentos básicos do cálculo do escore anômalo para cada instância são
descritos, a seguir [Torgo (2010)]:

1) Para obter a distância de uma instância o à sua vizinhança mais próxima é usado
os conceitos de kNN;

2) O conceito de distância alcançada entre as instância o1 e o2 é dada pela máxima


distância central de um o1 e as distâncias entre ambos as instância;

3) A distância alcançada local de uma instância é inversamente proporcional a


distância alcançada média de seus k vizinhos.

Na abordagem local os escores anômalos obtidos são adaptáveis às flutuações na


densidade local e, portanto, destina-se a ser comparáveis ao longo de um conjunto
de dados com distintas densidades.
Uma limitação frequente para a maioria dos algoritmos, inclusive para o sistema
LOF é de ser apenas apropriado para lidar com atributos numéricos. Mas sabe-se
que é usual a frequência de misturas de tipos de atributos numéricos e categóricos
em diversas aplicações reais, ver Seção 1.1. Por essa razão, é necessário recorrer a
algumas alternativas, como

1) A primeira alternativa é usar uma função de distância para conjunto de da-


dos misto ao invés de função de distância apropriada apenas para atributos
numéricos no código fonte da implementação do LOF.

2) A segunda alternativa é transformar os nı́veis dos atributos categóricos em


numéricos.

3) A terceira alternativa é não considerar os atributos categóricos na análise, em


conjuntos de dados misto.

Um atributo categórico com k possı́veis nı́veis pode ser re-codificado em k-1


atributos binários denominado como variáveis dummy, na qual indicam a presença
ou a ausência de qualquer dos k nı́veis. Quando um atributo categórico têm vários
nı́veis, e como cada nı́vel é um atributo quando se utiliza variáveis dummy o aumento
da dimensionalidade dos dados aumenta absurdamente, [Torgo (2010)].
Os procedimentos gerais apresentados no esquema 3.1 são planejados para identi-
ficar anomalias de uma forma não supervisionada.

25
Figura 3.1: Esquema de deteção de anomalias local. Adaptado de Schubert et al.
(2014)
.

Entrada: O conjunto de dados Dn x p .

Saı́da: Escores anômalos calculados para cada instância,


oi ∈ Dn x p ∀ i ∈ (1, · · · , n) .

1) Construção do modelo

i) Para cada instância oi são realizados os procedimentos a seguir.


ii) Selecione um contexto para oi .
iii) Construa um modelo para oi dependendo do contexto de oi .

2) Comparação de modelo

i) Para cada instância oi são realizados os procedimentos a seguir.


ii) Selecione um r ∈ referência para oi .
iii) Cálculo do escore, escore(oi ) := comparação(modelo(oi ), modelo(r) ).

3) Normalização dos escores, caso necessário.

i) Para cada instância oi é realizado o procedimento a seguir.


ii) Normalize o escore(oi ).

26
Em alguns casos, é necessário normalizar as informações, seja para que seus
valores fiquem no intervalo [0:1], ou para que fiquem com média zero, µ = 0, e
variância igual a um, σ = 1, ou até mesmo trabalhem sobre ranks. Qualquer que seja
a transformação realizada ocorrerá perda de informação, mas em geral, obtém-se
uma maior confiança com relação aos resultados finais obtidos.
Os escores anômalos obtidos de métodos locais são capazes de bem se adequar
a flutuações na densidade local e assim serem comparáveis sobre um conjunto de
dados contendo diferentes densidades, [Schubert et al. (2012)].
Para ilustrar os procedimentos de detecção de anomalias local em Schubert et
al. (2014) é utilizado os conceitos do LOF como base. As etapas realizadas para
obtenção do escore LOF são dadas a seguir, [Breunig et al. (2000)]:

1) Adota-se a técnica kNNs tanto para contexto de oi como para referência de oi .

2) Obtém-se uma estimativa para o modelo de acessibilidade de densidade local -


lrd com base no contexto local. Uma formulação é dada por,

1
lrd(o) := P , (3.1)
q∈contexto(o) alcance−distanciak (o,q)
|contexto(o)|

em que o alcance - distancia é dado por:

alcance − distanciak (o, q) := max {kN N − dist(q), dist(o, q)} (3.2)

3) Considera-se uma medida de distância, e calcula-se o kNN - distância(q) que é


a distância entre q e o k-ésimo vizinho mais próximo de q, isto é, um valor
obtido do contexto local de q.

4) Obtém-se o escore final da comparação dada a seguir,

lrd(s)
LOF (o) := avgs ∈ ref erencia(o) (3.3)
lrd(o)

O LOF usa de técnicas de comparação mais complexa se comparadas as de


ordenação de valores unidimensionais, realizado nas medidas de distâncias e de
densidades que baseiam-se nos valores de mı́nimo e de máximo do conjunto de dados
completo. Além disso, esse sistema não realizada normalização global.
A etapa de construção do modelo frequentemente é simples. Se assemelha a
aplicar a contagem de instâncias dado um raio de proximidade entre os pontos, como
realizado em uma simples estimativa de densidade. Nesse cenário, o contexto e a
referência são globais, mas a definição do modelo é particular. No entanto, muitas
das abordagens tentam simplificar a construção do modelo por razões de eficiência.
Pesos seguindo uma distribuição Gaussiana podem ser atribuı́dos a pontos de
uma vizinhança de uma dada instância, porque os pesos atribuı́dos aos ponto de uma

27
vizinhança decrescem a medida que à distância entre um ponto central e os pontos
da sua vizinhança mais próxima aumenta, e vice versa. Se um dos vizinhos têm uma
distância a com relação a o, espera-se que o valor assumido por o seja próximo a uma
estimativa amostral ponderada de sua vizinha mais próxima, formalmente, [Torgo
(2010)]

w(a) = exp(−a). (3.4)

3.2 Detecção de anomalias em conjuntos de dados


mistos
A quantidade de métodos desenvolvidos para detectar anomalias em conjuntos
de dados mistos é escassa se comparada a essa quantidade para conjuntos de dados
com atributos contı́nuos. Usualmente, os algoritmos bem trabalham com atributos
contı́nuos ou com atributos categóricos. Para superar esse problema são descritas
algumas das estratégias utilizadas:

1. Recodificar valores de atributos categóricos em valores inteiros numéricos. No


entanto é muito difı́cil atribuir um valor numéricos correto a valores categóricos;

2. Outra alternativa é discretizar atributos numéricos. No entanto o processo de


discretização carrega a perda de informação.

Diversas abordagens foram construı́das baseadas em frequências de padrões para


tratar atributos categóricos, a qual é também utilizada na parte categórica de
conjuntos de dados misto. Os atributos categóricos não podem ser representados da
mesma forma como os atributos quantitativos, uma vez que não tem uma natural
ordem, e não existe informação de distância, e é impossı́vel obter uma função de
correlação entre eles. As informações sobre os atributos categóricas reside dentro de
suas categorias. Uma natural representação de um atributo categórico é pelo seu
centro de gravidade, [Murthy et al. (2013)].
A proximidade de dois objetos obviamente depende da proximidade entre todos os
valores de seus atributos. É relativamente fácil estimar a proximidade para atributos
numéricos, o que é difı́cil, nos casos de atributos categóricos. Na maior parte das
medidas de distância não leva-se em consideração a distribuição dos dados, enquanto
calcula-se a distância entre quaisquer dois valores de atributos categóricos, o que é
capturado naturalmente para atributos numéricos.
Os objetivos de um estudo podem estar relacionados com as instâncias, os
atributos e as categorias. Isto levanta um certo número de questões interligadas.
Para proporcionar uma tipologia das instâncias: quais são as instâncias mais similares
ou mais dissimilares. Considere o exemplo, dos dois bebedores de chá são ditos
similares, se eles responderem às perguntas da mesma forma. Os indivı́duos são
comparados segundo as categorias selecionadas. A partir desta perspectiva única,
a distância entre os dois indivı́duos depende inteiramente de suas caracterı́sticas e
não das caracterı́sticas dos demais indivı́duos. No entanto, é importante para ter em

28
conta as caracterı́sticas dos outros indivı́duos para calcular à sua distância. Vamos
considerar quatro exemplos, a fim de compreender como a similaridade entre dois
indivı́duos pode ser calculada, [Husson et. al.(2011)]:

1. Se dois indivı́duos selecionar as mesmas categorias, a distância que separa é


nula;

2. Se dois indivı́duos selecionarem as mesmas categorias na maioria das vezes,


eles deve estar próximos;

3. Se dois indivı́duos selecionam todas as mesmas categorias, exceto por uma


que é selecionada por um dos indivı́duos e raramente por todos os demais
indivı́duos, os indivı́duos devem ser distanciados para dar conta da unicidade
de um dos dois;

4. Se dois indivı́duos compartilham uma categoria rara, eles devem estar juntos,
apesar de serem diferentes em outros casos, a fim de explicar à sua distinção
comum.

3.3 Análise de agrupamento em alta dimensão


Nos últimos anos o fluxo de informações teve um aumento significativo, vindo do
crescimento tecnológico, o que fez com que os métodos tradicionais fossem adaptados
para esse novo cenário. De modo a análise de agrupamento se dividiu-se em duas
abordagens: as que consideram espaço completo e as que consideram subespaços,
[Zimek et al. (2012)].
Os algoritmos tradicionais de agrupamento de dados consideram espaço completo
e são planejados para trabalharem em espaços de dados de dimensões baixas. Em
espaços de altas dimensões eles perdem à sua eficiência, porque a noção de proximidade
entre pontos perde o sentido, e se torna mais difı́cil identificar a distribuição dos
dados, popularmente conhecida como à maldição da dimensionalidade, [Müller et al.
(2011), Kriegel et al. (2009)].
Com o aumento da dimensionalidade as distâncias entre os pontos aumentam,
enquanto a variância relativa diminui. Analogamente, a medida que os subespaços
crescem as distâncias entre as instâncias em um subespaço S também crescem. Este
é um problema comum que também afeta a análise de agrupamento em subespaço
baseado em grid e em windows, [Sim et al. (2013)].
A análise de agrupamento em alta dimensão pressupõem que diferentes grupos
podem ser formados em diferentes subespaços. Por essa razão, não existe proce-
dimento de redução da dimensionalidade global que seja capaz de identificar um
subespaço comum para determinar todos os grupos do conjunto de dados. Sendo essa
suposição uma significativa propriedade para definir sobreposição de grupos em altas
dimensões, isto é, quando uma instância pertence a diferentes grupos contidos em
distintos subespaços. A sobreposição de grupos é uma possibilidade não explicada
pelos algoritmos tradicionais de agrupamento de dados, [Sim et al. (2013)].
Os principais problemas vistos em agrupamento de dados em altas dimensões
se remetem à: buscar por subespaços relevantes e buscar por grupos significantes.

29
Ambos os problemas precisam ser resolvidos simultaneamente, e à sua solução é
obtida da aplicação de heurı́sticas para ambos os casos. Trabalhar com apenas os
subespaços relevantes leva a redução do custo computacional de forma que tem-se
da ordem de 2p - 1 subespaços possı́veis a serem analisados, em que p é a quantidade
de atributos de um conjunto de dados.
A definição de cinco classes de algoritmos de análise de agrupamento para tratar
conjuntos de dados com altas dimensões são descritas a seguir, [Kriegel et al. (2009);
Sim et al. (2013)].

1) Algoritmos de agrupamento de projeções são planejados para encontrar as melho-


res projeções de pontos. A versão soft desses algoritmos considera conhecido a
priori o número de grupos, de modo que os subespaços são geralmente avaliados
em uma forma suave para o agrupamento, e todos os atributo são ponderados
e considerados na análise de agrupamento. Mais detalhes na Seção 3.5.

2) Algoritmos de agrupamento em subespaço encontram todos os grupos em todos os


subespaços. Identifica grupos em subespaços por similaridade ou dissimilaridade
entre as instâncias. Um escore anômalo para classificação significativa é
necessário no princı́pio de integrar as múltiplas visualizações, [Muller et al.
(2012)]. Mais detalhes na Seção 3.4.

3) Algoritmos de agrupamento de dados correlacionados realiza o agrupamento


de informações pareadas correlacionadas, . Para avaliar a significância do
agrupamento é usada uma medida de associação, [Sim et al. (2010a)]. Mais
detalhes na Seção 3.6 .

4) Algoritmos de agrupamento baseada em padrões (ou biclustering) é similar ao


agrupamento em subespaço. Agrupam as instâncias pela similaridade entre
atributos, e permite a sobreposição de grupos. No entanto, o agrupamento
baseada em padrões é mais flexı́vel se comparado ao agrupamento em subespaço,
ele pode agrupar os pontos com respeito aos atributos, ou com respeito as
instâncias ou com respeito a ambos, isto é, as instâncias e atributos são tratados
igualmente. Além disso a definida submatriz de instâncias e atributos exibi
um agrupamento baseado em um padrão.

5) Algoritmos de agrupamento hı́bridos, ao contrário de algoritmos de agrupamento


de subespaço, não desejam encontrar todos os possı́veis grupos. Ele encontra
grupos que se sobrepõem, e especı́ficos subespaços de interesse. Possuem a
capacidade de combinar diferentes técnicas de análise de agrupamento em
subespaços de tal forma que maximize a eficiência do algoritmo. Por exemplo,
pode combinar a versatilidade dos algoritmos hierárquicos com o baixo tempo
de execução e a baixa complexidade dos algoritmos particionados, [Murty e
Krishna (1980)].

Algumas das caracterı́sticas de algoritmos de análise de agrupamento em espaços


de altas dimensões, ver Tabela 3.1.
Os algoritmos de agrupamentos de dados tradicionais identificam os grupos em 2D,
e não são planejados para trabalharem com dados complexos, dados contaminados, e

30
Tabela 3.1: Relevantes caracterı́sticas dos algoritmos de análise de agrupamento em
espaços de altas dimensões. Adaptada de Sim et al. (2013).
Técnicas PD a Bb Cc Q d D e 3Df Sobreposição g
√ √ √ √ √ √ √
Em subespaços
√ √ √ √ √
De projeções
√ √ √
Em correlação
√ √ √ √ √
Em padrão
a
palavras de documentos
b
atributos binário
c
atributos categórico
d
atributos contı́nuo
e
atributos discreto
f
forma grupos em 3 dimensões
g
identifica grupos sobrepostos

sobreposições de grupos. É mais difı́cil conseguir resultados eficientes em dados em


3D se comparado a dados em 2D, [Sim et al. (2013)].
A seguir é dado uma ilustração de subespaços em 3D, ver Figura 3.3. O tempo t
neste contexto é uma sequência de caracteres que identificam quando um determinado
evento ocorre. Normalmente é dado a data e hora, às vezes com uma precisão de
uma pequena fração de um segundo.

Figura 3.2: Ilustração de subespaços em 3D. Adaptado de Sim et al. (2013)

Nas subseções a seguir são apresentados conceitos a respeito de detecção de


anomalias em subespaços; agrupamentos de dados: em subespaços, de projeções, e
dados correlacionados.

3.4 Deteção de anomalias em subespaços


A detecção de anomalias em subespaços é considerada ser uma tarefa não su-
pervisionada, por geralmente não se conhecer a priori os subespaços de atributos
relevantes, sendo que a busca por anomalias e por subespaços relevantes devem estar
relacionadas, [Kriegel et al. (2009)].

31
Supostamente qualquer algoritmo de agrupamento de dados em subespaço tratam
conjuntos de dados com anomalias e tem dificuldade em segmentar observações
quando os subespaços são próximos uns dos outros, [Soltanolkotabi et al. (2014)].
O agrupamento em subespaços consiste na formação de grupos em subespaços
considerando a similaridade ou dissimilaridade entre as instâncias. Um escore anômalo
é utilizado para a classificação significativa com o objetivo de integrar as múltiplas
visualizações, [Muller et al. (2012)].
Em análise de agrupamento em subespaço o critério de homogeneidade em grupos
categóricos é frequentemente relativo a identificação dos valores de cada atributo.
Se identificada alguma dissimilaridade nos atributos pode se usar, por exemplo, a
distância de Hamming ou ı́ndice de Jaccard, [Guha et al. (1999)] .
Para quantificar as distâncias entre os subespaços uma medida angular é con-
siderada, por serem ditas mais robustas se comparadas as medidas de distância
tradicionais.
As instâncias são agrupadas em regiões densas em subespaços unidimensionais,
enquanto que as anomalias são dispersas em espaços de dimensões altas. Em geral, o
desvio de instâncias é altamente influenciado pelo número de atributos considerados
por subespaço, [Müller et al. (2011)].
Uma solução ingênua é testar todos os possı́veis subespaços orientados arbitrari-
amente para realizar a análise de agrupamento. Obviamente, existem um número
infinito de subespaços orientados arbitrariamente, de modo que está solução ingênua
é computacionalmente inviável. Em vez disso, deve-se decidir com base em dimensões
individuais e agrega-lás a um subespaço de alta dimensão.
Em subespaços irrelevantes a vizinhança de uma instância é distribuı́da de forma
aleatória e uniforme de tal forma que todos as instâncias parecem ser anômalas.
Além disso, se a quantidade de atributos irrelevantes em um conjunto de dados
for grande, as anomalias podem facilmente serem mascaradas. Por outro lado, em
subespaços relevantes (ou projeções) à sua detecção é relativamente fácil, porém o
desafio é escolher o subespaço adequado, porque a relevância de um atributo está
relacionada a determinados subgrupos de instâncias de uma dada aplicação, [Müller
et al. (2011); Kriegel et al. (2010)].
As limitações em se detectar anomalias em subespaços se remete a: definir
um adequado limiar para classificação dos subespaços anômalos, definir o grau
de anormalidade de anomalias projetadas em diferentes subespaços anômalos, e
encontrar um algoritmo capaz de identificar eficientemente as k maiores anomalias
projetadas. Além do mais, cada instância, mesmo que se afaste substancialmente de
qualquer subespaços, é muito provável pertencer, a pelo menos, alguns grupos em
outras projeções. Assim, anomalias não são simplesmente instâncias não agrupadas.
A distância entre subespaços, a distribuição das instâncias em cada subespaço,
e o número de instâncias em cada subespaço afetam a eficiência dos algoritmos de
agrupamento em subespaços. Assim, nem sempre é possı́vel identificar corretamente
os grupos em subespaços de 3D, [Soltanolkotabi et al. (2014); Vidal (2010)].
A maioria dos métodos consideram a densidade da anomalia o, e a densidade da
sua vizinhança anômala no espaço de dados completo. O primeiro modelo proposto
para subespaços anômalos particionava o espaço de dados dentro de um grid de
células. Para uma única célula, um número esperado de pontos contaminados podem

32
ser calculados assumindo uma distribuição uniforme. Como os subespaços ou os
grupos podem ser vistos como grupos de células da grid densas, todos os pontos
contidos em células da grid esparsas esperadamente podem ser visto como anomalias,
[Kriegel et al. (2012); Müller et al. (2011); Hsu et al. (2004)].

3.4.1 Definição de subespaço


Seja Dn x p um conjunto de dados com n instâncias e p atributos. Um subespaço
S é um subconjunto de atributos formalmente definido por, [Vidal (2010)].

Si = o ∈ RDn x p : o = µi + Ui y (3.5)

em que µi ∈ RD n x p é um ponto arbitrário em subespaço Si para µi = 0 para


subespaços linear, Ui ∈ Dn x di é uma base para subespaço Si e y é uma representação
em baixa dimensão para pontos de o.
Cada subespaço S representa uma diferente visualização de Dn x p , e as medidas
de similaridade ou dissimilaridade são restritas a Di ∈ S, e a seleção de subespaços
relevantes para cada grupo ou anomalia é o principal objetivo de investigação, [Muller
et al.(2012)].
Em agrupamento em subespaço é necessário encontrar o número k de subespaços,
e às suas dimensões di ki=1 , às suas bases Ui ki=1 , os pontos µi ki=1 em casos de subespaços
afim, e a segmentação de pontos segundo o subespaço.
Os dado de referência estão próximos de uma união desconhecida de subespaços li-
neares, em que existem k subespaços S1 , S2 , · · · , Sk ∈ Rn com dimensões d1 , d2 , · · · , dk ,
respectivamente de tamanhos completamente desconhecidos, em que 0 < di < Dn x p
∀i = 1, · · · , k.
Quando se trata de apenas um subespaço, k = 1 o problema se reduz a encontrar
um vetor µ ∈ RDn x p ; uma base U ∈ Dn x d , e uma representação em baixa dimensão
Y = [y1 , · · · , yN ] ∈ RDd x n e a dimensão d. Esse problema é conhecido como PCA.
Para k > 1 o problema de agrupamento em subespaço é significativamente mais
complexo se comparado a tratar apenas um subespaço. As justificativas são dadas a
seguir, [Vidal (2010)].

1) Os dados podem ser distorcidos, por exemplo, na presença de anomalias, e de


entradas faltantes. Tais perturbações podem levar a equivocadas estimativas
de subespaços. Existem técnicas de estimação robusta para o caso de um único
subespaço, mas no caso de múltiplos subespaços não é bem compreendido.

2) A distribuição dos dados no interior dos subespaços é geralmente desconhecida. Se


os grupos forem homogêneos, e bem separados, então o problema é bem definido.
O que não se pode afirmar quando os grupos possuem formas arbitrárias e
diversos pontos próximos a intersecção de subespaços. Nesse caso, o problema
de agrupamento em subespaço torna-se mais difı́cil se comparado a trabalhar
com subespaços independentes.

3) Segmentação de dados e estimativa de modelo são intimamente relacionados.


Principalmente, se a segmentação dos dados é conhecida, pode-se ajustar

33
um único subespaço para cada grupo de pontos usando PCA padronizado.
Por outro lado, se os parâmetros dos subespaços forem conhecidos pode-se
encontrar os pontos que melhor se ajustem a cada subespaço. Na prática, nem
a segmentação dos dados e nem os parâmetros dos subespaços são conhecidos.

4) É necessário encontrar um critério que selecione um modelo que favoreça a um


pequeno número de subespaços de dimensões baixas.

Existem duas consequências em detectar anomalias em subespaço: a primeira é


que os escores apresentados pelos algoritmos não indicam uma clara separação entre
uma anomalia e uma instância de referência, ver seção 3.7. A segunda é que eles são
influenciados pelas distâncias que variam substancialmente ao longo de diferentes
dimensões.
As abordagens tem-se concentrado em criar diversos agrupamentos básicos e então
combinar-lós de uma forma a um único agrupamento unificado. Essas abordagens
diferem- se com respeito a: como criar diversidade, no sentido de combinar diferentes
subconjuntos de atributos, e como combinar diferentes grupos, no sentido de extrair
as correspondências entre diferentes soluções de agrupamento com o objetivo de
combina-lás. De um ponto de vista de agrupamento em subespaço, o problema de
correspondência em agrupamento ensemble é um tópico relevante como não existe
procedimento de avaliação automática adequado para análise em alta complexidade,
[He et al. (2005), Bertoni e Valentini (2006)].
A estrutura de detecção de anomalias em subespaços é descrita a seguir, [Lazarevic
e Kumar (2005); He et al. (2005)].

(1) Considere Dn x p .

(i) Para cada iteração t o algoritmo utiliza um subconjunto diferente atributos,


St , ∀t = 1, 2, · · · , T , em que apenas os St relevantes devem ser selecionados
como entrada.
(ii) Aplicar-se o algoritmo de detecção de anomalia Ht no subconjunto de
atributos St selecionado.
(iii) Usa-se uma função para combinar os T vetores de escores anômalos ASt
em um único vetor de escores anômalos final ASf inal , como segue:
ASf inal = combinar(ASt ), ∀t = 1, · · · , T
(iv) O ASf inal é usado para se atribuir uma probabilidade final de anormalidade
a cada instância da base de dados. Se ASt (i) > ASt (j) então a instância
oi tem maior probabilidade de ser anômala do que a instância oj .

(2) A saı́da do algoritmo de detecção de anomalia Ht é um vetor de escores anômalos


ASt , e ao final das T iterações teremos T vetores de escores anômalos cada um
correspondendo a um único algoritmo de detecção de anomalia.

(3) Cada algoritmo de detecção de anomalia resulta em um vetor de escores anômalos


ASt diferente na qual reflete a probabilidade de cada instância ser uma anomalia.

34
Após o cálculo do fator anômalo para cada instância em todos os subespaço de
entradas, em seguida são integrados os resultados de cada processo para obter o
resultado final. Nesta etapa, são utilizados alguns dos conceitos de aprendizagem
ensemble.
Pressupõem que os fatores anômalos das instâncias O ∈ Dn x p após a fusão de
todos os subespaços S1 , S2 , · · · , Sk de fatores anômalos, para os k subespaços de
entrada é dado por OF(o) = ⊕(S1 , S2 , · · · , Sk ), em que ⊕ é ooperador combinando.
Note que se k= 1, então temos ⊕(S1 , S2 , · · · , Sk ) = S1 .
Segue abaixo a descrição de alguns dos básicos operadores que são suficiente em
unificar pesquisas existentes em estrutura de detecção de anomalias em subespaços.

(i) Operador produto prod : ⊕(S1 , S2 , · · · , Sk ) = S1 S2 · · · Sk .


(ii) Operador adição Σ : ⊕(S1 , S2 , · · · , Sk ) = S1 + S2 + · · · + Sk .
(iii) A norma combinada Qq é uma generalização do operador adição com um adici-
1
onal número natural q. Qq (S1 , S2 , · · · , Sk ) = (S1q , S2q , · · · , Skq )( q ) . O operador
adição é um caso particular de Qq quando fixa-se q=1.
Uma versão limitante de normas Qq , denotada como Q∞ · Q∞ (S1 , S2 , · · · , Sk ) é defi-
nida ser igual a Si , em que Si tem o maior valor absoluto entre (S1 , S2 , · · · , Sk ).

Usualmente defini-se as anomalias usando as distâncias dimensionais comple-


tas entre os pontos no subespaço composto de todas as dimensões, ou seja, k=1,
⊕(S1 , S2 , · · · , Sk ) = S1 . Assim, é sempre direita a classificação dessas pesquisas a
qualquer um dos determinados operadores combinados, [He et al. (2005)].

3.4.2 Algoritmos de análise de agrupamento em subespaço


Em resumo, as técnicas de análise de agrupamento de subespaço são divididas
em quatro categorias: algoritmos algébricos, métodos iterativos, métodos estatı́sticos
e métodos baseados em agrupamento espectral, [Sim et al. (2013)].

1) Algoritmos algébricos são baseados em matrizes de fatoração que são aplicadas


apenas a subespaços independentes, ou a métodos baseados em álgebra poli-
nomial que são aplicáveis a qualquer tipo de subespaço. Por exemplo, PCA
generalizado - GPCA é uma método algébrico geométrico para agrupar dados
em subespaços lineares. GPCA é um algoritmo computacionalmente barato se
o tamanho da amostra n e a dimensão do subespaço d são ambos pequenos. Ele
bem trabalha com subespaços independentes e dependentes, e sobreposições
de subespaços. No caso dados livres de anomalias não é necessário estimar a
priori o número ou as dimensões dos subespaços.
2) Métodos iterativos é uma versão melhorada dos algoritmos algébricos. Dada uma
segmentação inicial pode-se ajustar um subespaço para cada grupo usando o
clássico PCA. Em seguida para cada subespaço pode-se atribuir a cada ponto
a seu subespaço mais próximo. Essas duas sequências são realizadas até que
ocorra a convergência. Tais conceitos são utilizados pelos algoritmos K-planos
e K-subespaços, nas quais são generalizações do algoritmo K-médias.

35
3) Métodos estatı́sticos assumem conhecida a distribuição dos dados nos subespaços,
como é feito, na mistura de probabilidade PCA - MPPCA , na compressão com
perdas aglomerativa (ALC), e no consenso de amostra aleatória - RANSAC.
MPPCA é uma mistura de Gaussianas que pode ser aplicada para subespaços
afins e lineares. É visto como uma versão probabilı́stica de K-subespaços, por
ambos serem simples e intuitivos e cada iteração pode ser calculada de forma
fechada utilizando probabilidade PCA - PPCA. ALC é robusto, e parte do
princı́pio que os dados foram gerados de uma mistura de Gaussianas degeneradas.
Por sua vez, RANSAC ajusta um modelo probabilı́stico e identifica as anomalias
na análise de resı́duos.
4) Métodos baseados em agrupamento espectral bem trabalham em alta dimensão. A
limitação este algoritmo está em definir uma boa matriz de proximidade, porque
duas instâncias podem estarem próximas mas podem pertencer a subespaços
distintos ou próximas a ocorrência de uma sobreposição de subespaços. Por
outro lado, dois pontos podem estar distantes, mas estarem no mesmo subespaço.
Consequentemente, usar as populares medidas de distâncias nesse caso é
inadequado.

Os métodos iterativos e algébricos procuram agrupar os dados em subespaços


usando de propriedades algébricas e geométricas. Essas abordagens podem tratar
dados contaminados, mas não fazem suposições explı́citas sobre a distribuição dos
dados nos subespaços ou sobre a distribuição das anomalias. Não fornecem estimativas
pautadas em uma teoria solida, como nas estimativas obtidas do método da máxima
verossimilhança.
A noção de proximidade entre subespaços veem do princı́pio de medida angular
0 0 0
dada por: θ(1) , · · · , θ(d∧d ) entre dois subespaços S e S de dimensão d e d , respecti-
vamente. É uma medida de correlação entre dois subespaços, com valores entre [0:1].
Uma correlação nula ocorre quando os subespaços são ortogonais, o que facilita a
análise de agrupamento. Por outro lado, quanto mais próximo a correlação estiver
do valor 1, mais difı́cil é a análise de agrupamento. A sobreposição de subespaços
ocorre quando a correlação é igual a 1.

3.5 Detecção de anomalias baseada em técnica de


projeção
Projeção aleatória ajusta um espaço de dados completo em um subespaço. É
usualmente um método computacionalmente barato que possui dimensionalidade
logarı́tmica com respeito a dimensão do espaço completo, de modo que as distâncias
pareadas entre os pontos antes e depois da projeção são alteradas apenas por um
pequeno fator. As projeções apresentam uma visão ótima dos dados projetados
podendo assim ter uma boa estimativa da densidade deles, além disso pode-se
encontrar direções cuja a distribuição dos dados é relevante, [Zhang e Brodley (2003)]
O processo de detecção de anomalias pode utilizar de uma única projeção ou de
múltiplos subespaços. As projeções do espaço de dados completo não estão ciente
de projeções individuais por subespaços. Uma projeção única falha em diferentes

36
visualizações dos dados, porque uma instância pode ser anômala ou não dependendo
do subespaço analisado. Em contraste uma única projeção aleatória, na análise de
agrupamento em subespaço detecta-se grupos em qualquer combinação possı́vel de
atributos, [Sim et al. (2012)].

3.5.1 Análise de componentes principais


A técnica de análise de componentes principais (PCA) resulta em uma matriz de
projeção com p componentes principais (autovetores), e consiste de um subespaço
linear de baixa dimensão. Cada componente principal é uma combinação linear dos
atributos originais que são mutuamente ortogonais entre si, nas quais descrevem a
variação do conjunto de dados original com p atributos altamente correlacionados, em
termos de k atributos descorrelacionados entre si, ∀ p e k ∈ Z, [Rousseeuw (2011)].
PCA é aplicado em conjunto de dados com atributos contı́nuos com o objetivo de
encontrar a direção de alta e baixa variabilidade dos pontos. Sendo que o primeiro
autovetor aponta para a direção de maior variância de Dn x p . O segundo autovetor
aponta para a direção da segunda maior variância em Dn x p perpendicular ao primeiro
autovetor. Assumindo que existem grupos altamente correlacionados em Dn x p , os
primeiros k autovetores abrangem hiperplano de dimensão k acomodando os pontos
de Dn x p . Os menores p − k autovetores definem um subespaço perpendicular ao
hiperplano, na qual acomodam os elementos do grupo. Os pontos projetados são
grupos otimamente densos, [Kriegel et al. (2009)].
Na prática é esperado que os primeiros componentes principais expliquem a
maior parte da variabilidade dos dados para que os demais componentes possam ser
descartados. De modo que o número de atributos a serem analisados seja reduzido,
permitindo assim uma melhor interpretação e entendimento da fonte de variação dos
dados.
A projeção do primeiro autovetor descreve a posição das instâncias dentro do
subespaço e a extensão da correlação do hiperplano. Enquanto, as projeções dos
p − k últimos autovetores descrevem o desvio do hiperplano que correspondem a
subespaços anômalos e/ou ruidosos.
Para resolver o problema da alta dimensão dos dados, as técnicas de agrupamento
em subespaços recorrer a duas alternativas: a redução de atributos ou a seleção de
atributos.
O PCA é o mais popular método para a redução de atributos, e as técnicas de
seleção de atributos não realizam transformações nos atributos, procedem selecionando
um subconjunto de atributos de modo que as instâncias seja homogêneas, buscam
pelo subespaço ótimo. Dividem-se em duas categorias: os modelos de wrapper e o
filtro.
PCA clássica não é robusta. Na presença de anomalias a variância do conjunto
de dados é inflada, de modo que não se captura a real variabilidade dos dados. Pode
se perder a interpretação após a redução de atributos, [Sim et al (2013)].
Existem duas formas de obter um PCA robusto: uma delas é substituir o estimador
clássico por um estimador robusto para a matriz de variâncias e covariâncias, e a
outra é maximizar as estimativas para obter direções consecutivas sob o qual os
pontos são projetados, ou seja, consiste de uma técnicas de projeção, como na

37
generalização de PCA - GPCA, [Croux (2007)].
A eficiência do PCA para a detecção de anomalias depende essencialmente da
escolha de um estimador para a matriz de variâncias e covariâncias que não sejam
sensı́veis a presença de anomalias nos dados. Uma proposta é o estimador de Mı́nima
Variância Generalizada (MGV) que busca por um centro robusto na nuvem de pontos.
É uma leve modificação da busca de projeção, [Hubert (2010)]; Finch et al. (2011)].
As instâncias podem ser classificadas como anômalas, de acordo com a estatı́stica
de teste baseada no MGV que é dada por,

V = M d + sqrt(χ2p,1− 1 )(q3 − q1 ),
α

em que Md é a mediana das distâncias da projeção, dij . Uma instância é


considerada ser anômala se o valor de dij é grande se comparado a estatı́stica de
teste, isto é, dij > V .

3.6 Detecção de anomalias em agrupamento de


atributos correlacionados
A maioria das abordagens existentes para detecção de anomalias implicitamente
assumem que todos os atributos são igualmente relevantes e não levam em conta a
correlação local para detectar anomalias. No entanto, vários atributos podem não ser
relevantes, no sentido de que não existe uma relação entre eles, o que acarreta a uma
distorçam nos cálculos de distâncias geralmente realizadas no espaço dimensional
completo. Desta forma, é mais viável realizar o agrupamento dos pontos considerando
apenas um subconjunto de atributos, [Vidal (2010); Kriegel et al. (2012)].
Neste cenário, determina-se a função que descreve a relação entre os atributos
definida pela vizinhança de o e avaliada pelo desvio de o à sua vizinhança no
subespaço perpendicular ao seu hiperplano. Esse procedimento medi como bem se
ajustou a anomalia ao hiperplano. Os pontos do subespaço que apresentam uma
correlação local estão localizados em um mesmo hiperplano 1 de dimensão δ, em
que δ 6 p. Na Figura 3.3 é mostrado três hiperplanos e seus respectivos espaços
perpendiculares.
Temos que as instâncias n1 e n2 foram geradas pelos mecanismo 2 e mecanismo
1, respectivamente, ver Figura e, assim, não deverão ser rotuladas como anomalias;
essas instâncias bem se ajustam perfeitamente com os mecanismos que geraram os
casos de referência. Na literatura Estatı́stica, é dito que n1 e n2 são pontos não
influentes, pois não alteram as estimadas dos parâmetros de seus respectivos modelos
ajustados. Ao contrário das instâncias n1 e n2 , as instâncias o1 , o2 e o3 são anômalas,
porque elas se desviam significativamente de qualquer um dos hiperplanos propostos.
Na Figura 3.4 nota-se que as anomalias somente são identificadas quando projeta-
se os pontos do hiperplano a um subespaços perpendicular a ele. Contudo, nesse
cenário, as abordagens usuais de detecção de anomalias podem apresentar altas
taxas de falsos positivos e falsos negativos, porque elas não são capazes de considerar
quaisquer correlação local.
1
Hiperplano é um subespaço de dimensão p − 1. No caso, dos espaços bidimensional e tridimen-

38
Figura 3.3: Projeções em subespaços. Adaptado de Kriegel, Kröger e Zimek (2009)

Figura 3.4: A ideia geral de como identificar anomalias em subespaços de atributos


originais por meio de um subespaço ortogonal. Adaptado de Kriegel et al. (2012)

O centroide de um grupo correlacionado é um par de instâncias fortemente corre-


lacionadas, e para cada centroide, outros centroides são avidamente e iterativamente
adicionados a ele para criar grupos em subespaço. Um centroide é adicionado ao
agrupamento de subespaço se conduzir a um aumento de informações de correlação.
Essa iteração continua até que não tenha mais aumento de informações de correlação,
[Sim et al. (2013)].
O algoritmo de agrupamento de atributos correlacionados não requer de esti-
mativas de parâmetros para à sua execução. Ao contrário dos demais métodos de
agrupamento em subespaço, também não são necessários limiares para determinar se
a informação de correlação de um subespaço agrupado é alta ou não. Basta fornecer
o nı́vel de significância, α que é comparado com nı́vel de significância do teste, o
p-valor; para se inferir a respeito da significância da correlação entre as instâncias
pareadas.

sionais, os hiperplanos são uma reta e um plano, respectivamente.

39
3.7 Escores anômalos
Nesta seção são apresentados alguns conceitos a respeito de escores anômalos.
Existem duas possı́veis saı́das para um algoritmos de detecção de anomalias: um
escore que indica o grau de anormalidade de uma instância, ou um escore binário
que rotula as saı́das como anormal ou não, [Amer (2011)].

3.7.1 Regularização e normalização e interpretação de esco-


res anômalos
Primeiramente, o processo de detecção de anomalias é um problema de dados
desbalanceados, porque a presença de uma anomalia é considerada rara.
Os escores são significantes apenas para as instâncias localizadas no topo, os
escores das instâncias de referência usualmente não variam muito. Eles frequente-
mente têm um significado que pode até indicar que não existe a presença de anomalia
em um dado conjunto de dados. Como usualmente pouco se conhece a respeito
dos verdadeiros escores e de suas distribuições a normalização das classificações é
recomendada, [Schubert et al. (2012)].
Uma recente proposta é o algoritmo ABOD que considera uma medida angular
entre uma instância de consulta e os demais pontos pareados. Seus resultados
são interpretados da seguinte forma: se os escores obtidos são altos indica baixa
anormalidade. Usualmente considera conhecida a quantidade de anomalias presentes
na base de dados, ou seja, adota-se um topo k de anomalias. No entanto, é pouco
provável se conhecer a priori a quantidade de anomalias presentes em um conjunto
de dados, especialmente se não existe uma clara distinção entre os escores anômalos
e os escores das instâncias de referência, [Schubert et al. (2012)].
Outra proposta é o escore OutRank que indica o grau de anormalidade de cada
instância, escore(oi ) ∈ [0:1]. A interpretação dada para seus escore é da forma que um
valor de escore(oi ) próximo de 1 indica provável ponto de referência, e quanto mais
próximo de zero for o valor de escore(oi ) mais provável indı́cios de que a instância é
anômala, [Muller et al.(2012)].
Assim como não existe uma definição geral válida do que se constitui uma
anomalia, também não existe uma única interpretação para um vetor de escores
anômalos. Assim, a transformação dependerá do tipo de escore. Por exemplo, os
escores obtidos na aplicação das técnicas LOF e LDOF apresentam similares sentidos,
assim tais escores podem ser transformados utilizando de similares funções. No
entanto, a interpretação de seus escores tem uma pequena variação, como segue,
[Kriegel et al. (2011)]:
1. O LOF e suas variações apresentam valor esperado para os escores das instâncias
de referência igual a 1, isto é, baseLOF = 1.
2. O LDOF apresenta valor esperado para os escores das instâncias de referência
igual a 12 , isto é, baseLDOF = 21 .
Em ambos os casos acima o valor esperado para um escore anômalo é estritamente
maior que o valor da sua base. O intervalo dos valores dos escores anômalos para
estas técnicas varia do valor de base até o infinito, isto é, [base, ∞).

40
Unificar escores anômalos
A razão pelo qual se realiza um reescalonamento de escores anômalos é com
o objetivo de obter um significante contraste entre os escores das instâncias de
referência e os escores das anomalias, de modo que facilite a identificação de instância
anômala. Considera-se a ideia da definição dada por Hawkins (1980) para uma
anomalia, ver Seção 1.1.
Busca-se por uma estrutura geral para a regularização e a normalização de um
escore anômalo, nas quais ambas podem ser usadas para aumentar o contraste entre
os escores das instâncias de referência e os escores das anomalias.
Seja S(o) o escore anômalo regular da instância o. O processo de escore unificado,
nas quais podem ser opcionais dependendo dos escores S é formado por dois passos,
descrito a seguir:

1. Regularização - Reg: que consiste de transformar um escore S para assumir


valores entre [0, ∞). Interpretado como segue,

• Para instâncias de referência admite-se Reg S(o) ≈ 0;


• Para anomalias admite-se Reg S(o)  0.

2. Uma transformação normaliza um escore para variar no intervalo entre [0:1].

Uma simples transformação linear pode regularizar esses escores. Algumas


sugestões de transformações são apresentadas a seguir.

Transformação linear
A diferença entre o valor observado S(o) e o valor de baseS resulta na trans-
formação de valores variando de [baseS , ∞) para [0, ∞),

RegSbaseS := max{0, S(o) − baseS } (3.6)


em que baseS é o valor esperado para os escores das instâncias de referência,
[Kriegel et al. (2011)].

Inversão linear
Pressupondo que os escores anômalos seguem uma distribuição Gaussiana tem-
se que os escores das instâncias de referência estão localizados em regiões de alta
densidade de pontos, e os escores das anomalias estão localizados em regiões de baixa
densidade de pontos, [Kriegel et al. (2011)].
Para regularização de tais escores é necessário realizar uma transformação inversa.
Neste caso, realiza-se a diferença entre o escore observado S(o) e o escore máximo
possı́vel Smax .

RegSlininv (o) := Smax − S(o), (3.7)


em que Smax > S(o).

41
Normalização
A diferença entre o valor observado de S(o) e o mı́nimo de S(o) dividido pela
diferença entre o máximo de S(o) e o mı́nimo de S(o) é uma formação linear
simples que transformar valores númericos para o intervalo de valores entre [0:1].
Formalmente,

S(o) − S(o)min
N ormlinear
S := (3.8)
S(o)max − S(o)min
As três transformações lineares apresentadas acima, não são adequadas para
escores anômalos que apresentam muito baixo contraste, de modo que não aumentam
significativamente o contraste entre os escores das instâncias de referência e os escores
das anomalias. A seguir é apresentada, um exemplo, de uma transformação que
aumenta esse contraste.
Transformar os escores anômalos obtidos de múltiplos algoritmos de detecção de
anomalias para o intervalo de valores entre [0:1] não fornece um sentido unificado
desses escores, porque cada modelo para a detecção de anomalias é especı́fico. No en-
tanto, o nı́vel de unificação gerados pelas transformações melhoram a comparabilidade
das decisões dos diferentes abordagens, [Kriegel et al. (2011)].

Função logaritı́mica
A função logaritı́mica é monotona. A função é dada por,

S(o)
RegSloginv (o) := −log( ) (3.9)
Smax

em que Smax é finito e S(o) > 0 , ∀o, e RegSloginv (o) é estável.


Esta regularização pode aumentar significativamente o contraste entre os escores
das instâncias de referência e os escores das anomalias. Um exemplo de um algoritmo
que apresenta escores anômalos com muito baixo contraste é o ABOD.
Para aumentar o contraste entre escores instâncias de referência e escores anômalos
são sugeridos também métodos estatı́sticos de escala, nas quais fornecem uma
interpretabilidade probabilı́stica dos escores regularizados.

3.7.2 Propostas de Regularizações para diferentes tipos de


escores
Nesta seção são apresentadas algumas promissoras propostas para regularizar
escores anômalos de um ponto de vista estatı́stico, [Kriegel et al. (2011)].

Escalonamento estatı́stico de escore anômalo


A distribuição dos escore anômalos usualmente é complexa e difı́cil de ser com-
preendida. Em particular quando pressupõe-se que um conjunto de dados foi gerado
por uma mistura de diferentes mecânismos, uma simples análise analı́tica é inviável.

42
Pode-se admitir que as transformações lineares apresentadas na Seção 3.7.1
pressupõem que os escores anômalos seguem uma distribuição uniforme. Mas a fim
de evitar superajuste é recomendado o uso de uma função distribuição primitiva
com limitado grau de liberdade. Destaca-se que a pressuposição é com respeito a
distribuição dos escores, e não com relação a distribuição do conjunto de dados, na
qual não se admite-se nada a respeito de sua distribuição.
Segundo Kriegel et al. (2011) qualquer função de distribuição pode ser utilizada
para este fim dependendo da qualidade do ajuste dos escores anômalos a prosposta
distribuição. Neste artigo é mostrado experimentalmente que a seleção arbitrária de
uma distribuição já oferece um desempenho melhorado significativo.
Por exemplo a distribuição Cauchy e a distribuição F são boas opções para as
funções escores que constituem de uma proporção obtidos dos algoritmos LOF e
LDOF.

Escala em distribuição Gaussiana


Pelo Teorema do Limite Central a mais geral distribuição para uma grande
quantidade de valores obtidos de uma mesma população é a distribuição normal.
Uma proposta é utilizar a função distribuição acumulada que é não decrescente, e
a função do erro Gausssiano, erf() para transformar os escores anômalos em valores
de probabilidade. Formalmente,

S(o) − µs
N ormgauss
S (o) := max{0, erf ( √ )} (3.10)
σs 2
em que µS é a média, e σS é o desvio padrão dos escores anômalos S.
A função de erro Gaussiano é monotona, e sua classificação é instável.

Z x
2 2
erf (x) = √ −t dt (3.11)
π 0

A regularização linear da função distribuição acumulada apresenta mesmos


resultados que a N ormgauss
S (o), dada por:

1 S(o) − µs
cdfSgauss (o) := (1 + erf ( √ )). (3.12)
2 σs 2

cdfSgauss (o) − µcdf


N ormgauss
S (o) := max{0, } (3.13)
maxcdf − µcdf

Escala em distribuição Gama


Supor de uma distribuição Gaussiana para altas dimensões é uma adequada
proposta. No caso, de baixa dimensão os histogramas dos resultados obtidos das
técnicas kNN e LOF se aproximam a forma da função de densidade de probabilidade

43
da Gama. Vale destacar que a Distribuição Gama é um modelo complexo, ou
seja podemos obter demais distribuições de probabilidade a partir dela dependendo
dos valores de seus parâmetros, por exemplo podemos obter a distribuição χ2 e a
distribuição exponencial a partir dela. A normalização é dada por,

cdfSgamma (o) − µcdf


N ormgamma
S (o) := max{0, }, (3.14)
1 − µcdf

em que µcdf = cdfSgamma (µS ). Para função de densidade de probabilidade acumu-


lada definida por,

γ(k, S(o) ) S(o)


cdfSgamma (o) := θ
= P (k, ) (3.15)
Γ(k) θ
em que P é a distibuição Gama regularizada.

3.7.3 Transformação de escore anômalo em probabilidade


A transformação de um escore para uma estimativa de probabilidade é uma
proposta viável por dois motivos: as estimativas de probabilidade garantem maior
confiança para a seleção do limiar na detecção de anomalias quando se usa um modelo
de risco Bayesiano, e as estimativas de probabilidade obtidas a partir de algoritmos
individuais podem ser combinadas para construir uma estrutura de detecção de
anomalias ensemble, [Gao e Tan (2006)].
O método de calibração (funções sigmóide ou modelo de mistura) para transformar
escore anômalo em probabilidades pode ser paramétricos ou não paramétricos, ver
Seção 2.3. Tal técnica pode ser utilizada em diferentes vetores de escores anômalos,
e então depois combinar essas probabilidades estimadas.
A regressão logı́stica é um método amplamente utilizado para transformar saı́das
de classificação em estimativas de probabilidade.
O ajuste da função sigmóide e do modelo de mistura é bastante instável, usa o
algoritmo generalizados EM. Além, eles favorecem valores extremos 0, 1, o que não é
favorável para a combinação, [Kriegel et al. (2011)].
Converter um escore anômalos em um cenário não supervisionado é difı́cil, porque
não existem exemplos disponı́veis rotulados. Assim, supõem-se que o conjunto de
dados apresenta naturalmente duas classes: os anômalos e os de referência, e a
probabilidade estimada de oi ser uma anômala é dada por P (O = oi /fi ) = pi , e a
probabilidade de oi ser um ponto de referência é dado por P (M = oi /fi ) = 1 − pi
dado o escore anômalo, fi .
Aplicando o teorema de Bayes, tem-se que a probabilidade a posteriori do modelo
sigmoide é,
P (fi /O)P (O) 1
P (O/fi ) = = (3.16)
P (fi /O)P (O) + P (fi /M )P (M ) 1 + exp(−Σi )
 
p(fi /O)P (O)
em que Σi = log p(f i /M )P (M )
.

44
Considere uma distribuição Gaussiana com matriz de variâncias e covariâncias Σi
que pode ser expressa como uma função linear, Σi = Afi + B. De tal forma que,

1
pi = P (O/fi ) = (3.17)
1 + exp(−Afi − B)

Precisamos encontrar estimativas para os parâmetros A e B. Seja ti a quantidade


de anomalias observadas.

(
1, oi ∈ O
ti := (3.18)
0, cc

em que O é a classe de anomalias, e ti é uma variável aleatória binária com distribuição


de Bernoulli com probabilidade de sucesso p.
A distribuição de probabilidade de ti é dada por

p(ti /fi ) = ptii (1 − pi )1−ti (3.19)

Para obtermos as estimativas para os parâmetros A e B. Basta aplicar o método


de máxima verossimilhança, e em seguida substituir o valor estimado para pi na
equação p(ti /fi ) , [Gao e Tan (2006)].

3.7.4 Abordagens Anomalias Ensemble


Na teoria ensemble dois métodos de combinação tem sido discutidos, denominados
de busca em largura e soma cumulada. O método de busca em largura é puramente
baseado na classificação das instâncias fornecidas pelos diferentes detectores. A
abordagem de soma cumulada fornece a soma das classificações obtidas diferentes
métodos para detectar anômalias para cada instância e re-classifica as instâncias de
acordo com esta novo escore.
A estrutura para a combinação de diferentes algoritmos na verdade, esta é
questionável para a abordagem de soma cumulada. No caso do método de busca em
largura não comparar diferentes escores anômalos, a soma cumulada não é adequada
para combinar vários escores de muito diferentes escalas. Uma opção melhoras é
dada Gao e Tan (2006), apresentada na Seção 3.7.3.
Nas abordagens semi supervisionadas e supervisionadas atribui-se pesos de acordo
com o conhecimento de anomalia referente a um determinado estudo. No caso, das
abordagens não supervisionadas, por exemplo pode se considerar a união dos topos
k dos escores anômalos obtidos de diferentes métodos como verdadeiras anomalias.
Mas, para um cenário não supervisionado, uma combinação não ponderada ainda
deve ser admissı́vel.
O trabalho realizado por Schubert et al. (2012) é dito ser o primeiro a considerar
similaridade ou a correlação entre dois vetores de escores anômalos, na qual é um
passo importante na construção de detecção de anomalia ensemble. No entanto, não
é considerado tais conceitos no processo de detecção de anomalia ensemble devido

45
à escassa quantidade de medidas disponı́veis para descrever a correlação entre os
métodos.
As medidas de similaridade de postos, por exemplo coeficiente de correlação de
Spearman, ρ e o τ de Kendall, γ de Kruskal’s que é uma versão alterada do τ de
Kendall para observações com empates. Essas medidas de correlação assumem que
as classificações são igualmente significantes.
Considerar a taxa de verdadeiros positivos para o intervalo de valores de escores
superiores, ou seja, o topo k é uma tarefa ingenua por causa da natureza desbalanceada
do problema. Uma proposta é comparar dois vetores de escores anômalos usando
de uma função de distância, por exemplo usar uma adequada função de distância
ponderada. No entanto não é claro como se pondera adequadamente a relação de
ordem em problemas desbalanceados. Além disso a seleção da função de distância
depende do problema proposto, [Schubert et al. (2012)].
Quando se atribuı́ pesos a uma medida, seja ela, a uma função de distância, ou a
custos lineares, ou a erros quadráticos, ou a medidas de correlação. Podemos então
trabalhar com dados desbalanceados.
Duas condições básicas para um ensemble, de modo que melhore o desempenho
de classificadores básicos considerados são: (i) precisão, na qual se espera que seja
melhor do que a dos aleatórios, e (ii) diversificação, ou seja, seja capaz de fazer erros
diferentes em novas instâncias.
A contribuição da teoria ensemble não é significativamente útil em casos em que
vários classificadores individuais não são distintos. Por outro lado, se os classificadores
produzem erros descorrelacionados, mais classificadores individuais são adequados
enquanto poucos classificadores individuais são inadequados.
Cada membro do ensemble deverá ser individualmente significante em algum
sentido de modo que se consiga resultados significantes se não estiver em uma
estrutura ensemble. Por essa razão é importante na construção de um ensemble
considerar membros ensemble que resultem em erros descorrelacionados. Por exemplo,
se analisar um ensemble de diversos LOF executados com diferentes k pode-se obter
um conjunto insatisfatório se os resultados são altamente correlacionados. Por outro
lado, a abordagem Feature Bagging conduz resultados bem descorrelacionados.
Na próxima seção será apresentado um exemplo de um escore para conjuntos de
dados mistos, o escore ODMAD.

3.7.5 Escore ODMAD


A busca por padrões frequentes é o método mais utilizado para tratar atributos
categóricos, também frequentemente utilizada para parte categórica de conjuntos de
dados misto.
O escore ODMAD combina a busca de frequência de atributos categóricos com o
fator cosseno para os atributos numéricos. O escore ODMAD divide o espaço em
dois subespaços, de tal forma que um subespaço comporta os atributos categóricos e
o outro os atributos numéricos, e a soma dos escores calculados para cada subespaço
compõem o escore ODMAD para dados misto, [ Murthy et al. (2013) ].
O escore para o subespaço categórico é formulado como segue:

46
M AXLEN
X 1
Escore(oi ) = (3.20)
sup(IF (oi )) ∗ |IF (oi )|
|IF (oi )|=1

em que MAXLEN é o número máximo de frequências do conjunto de itens dado


pelo usuário, sup(IF (oi )) é o suporte de conjuntos de itens raros na instância oi , e
|IF (oi )| é o comprimento do conjunto de itens raros na instância oi .
O escore para o subespaço numérico é dada por,

1 X
Escore(oi ) = COS(oN
i , µa ) (3.21)
|a ∈ oC
i | C ∀a∈oi

mN
X 1 µ
COS(oN
i , µa ) = ∗ aj (3.22)
N
o µa
j=1 ij

em que a é um valor categórico incluı́do na instância oi .


Para m atributos categórico e n atributos numéricos em um conjunto de dados,
temos que:

m
X sup(oij )
EscoreC (oi ) = (3.23)
j=1
|D|

hµoiN , oN i
EscoreN (oi ) = (3.24)
kµoiN k ∗ koN k
em que escoreN (oi ) = COSN (oi ), µoiN é um vetor de médias de todos os atributos
numéricos, e oiN são todos os valores assumidos pela i-ésima instância referentes aos
atributos numéricos.
O fator MAOF é dado por,

EscoreC (oi ) + EscoreN (oi )


M AOFescore (oi ) = . (3.25)
2

3.8 Sı́ntese do capı́tulo


Neste capı́tulo foi apresentado uma visão não tradicional de análise de agru-
pamento que procura solucionar o problema da alta dimensionalidade dos dados.
As abordagens apresentadas neste capı́tulo trabalham em subespaços ao invés de
trabalharem com o espaço completo dos dados. O conceito de subespaço viabiliza a
identificação da anomalias em uma visão mais detalhada que facilita a interpretação
de anomalias. A introdução a respeito de anomalia local mostrou que para conjuntos
de dados gerados por diferentes mecanismos buscar por anomalias locais é a melhor
opção. A limitação dessa proposta é identificar uma vizinhança adequada para se
detectar anomalias. Os escores anômalos precisam ser regularizados e normalizados
para que seja possı́vel combina-lós, e então se obter um resultado final confiável para
se inferir com relação a anômalias nos dados.

47
Capı́tulo 4

Experimentos Preliminares

Este capı́tulo apresenta os experimentos preliminares realizados até o momento.


Na Seção 4.1 são descritas as caracterı́sticas de seis conjuntos de dados em termos de
seus atributos e sua instâncias. Nas Seções 4.2 , 4.3, 4.4, 4.5, 4.6, 4.7 são apresentadas
às análises realizadas da aplicação dos algoritmos: DBSCAN, K medóides e Modelo de
Mistura Robusto para diferentes tipos de conjuntos de dados. Por fim são resumidos
os resultados obtidos das execuções de cada algoritmo na Seção 4.8.
Para cada conjunto de dados foi inicialmente estimado o número de grupo para a
execução dos algoritmos pelo gráfico scarpa (em inglês screen plot). Para análise
do kernel foi aplicado: um o algoritmo de análise de caracterı́sticas de kernels para
extrair a estrutura do conjuntos de dados. Esse algoritmo bem trabalha em espaços
de altas dimensões, e é similar a técnica de kernels PCA. As funções do kernel
eficientemente calculam os componentes principais em um espaço de caracterı́sticas
de alta dimensão, relacionado com o espaço de entrada por algum mapeamento
não-linear.
Os algoritmos utilizados são conceitualmente distintos, mas são a base dos algorit-
mos de análise de agrupamentos. Os três algoritmos aplicados neste experimento são
robustos: o algoritmo K medoides que é uma versão robusta do K-médias; o algoritmo
DBSCAN que é baseado na conectividade da densidade dos pontos, e o agrupamento
de um modelo de misturas de Gaussianas que utiliza de estimadores robustos para
o parâmetro de locação e o parâmetro de escala, que consistem de uma mediana
espacial, de uma matriz de covariâncias espacial - MRCM, respectivamente. MRCM
é estimada pelo desvio absoluto mediano (MAD). A região anômala é construı́da
baseada nos conceitos da distâncias de Mahalanobis.
A eficiência dos algoritmos de detecção de anomalia foram avaliados pelas quanti-
dades de verdadeiros positivos e falsos positivos, [ Zhang et al. (2007)].

4.1 Conjuntos de Dados Analisados


Os dados utilizados neste experimento são comumente utilizados na literatura,
para testar e comparar diferentes métodos de detecção de anomalias. Os conjuntos
de dados podem ser encontrados no repositório de aprendizagem de máquinas UCI
KDD; e alguma de suas caracterı́sticas estão descritas na Tabela 4.1.

48
Tabela 4.1: Caracterı́sticas dos conjuntos de dados utilizados
Dados Na Bb Cc M d CLe Distribuição das CL (%)
Câncer de mama 699 09 02 34.48 / 65.52
Spam 4601 57 02 39.40/60.59
Musk 476 166 02 42.99 / 57.00
Promotergene 106 57 02 50.00 / 50.00
Ionosfera 351 02 32 02 35.90/ 64.10
Linfografia 148 09 09 01 04 1/55/41/3
a
Quantidade de instâncias
b
Quantidade de atributos binário
c
Quantidade de atributos categórico
d
Quantidade de atributos numérico
e
Quantidade de classes

4.2 Análise do conjunto de dados de Câncer de


Mama Wisconsin
O conjunto de dados de Câncer de Mama Wisconsin contém 699 instâncias, e 9
atributos, além de um rótulo que indica o diagnóstico da doença. Temos que 458
(65.5%) instâncias foram rotuladas como benigno e 241(34.5%) foram rotuladas como
maligno. Os atributos foram obtidos de uma imagem digitalizada de uma aspirada
agulha fina (PAAF) de uma massa de mama, na qual descrevem as caracterı́sticas dos
núcleos celulares presentes na imagem. Os 9 atributos assumem os nı́veis categóricos
de 1 a 10.
Para a detecção de anomalias foi seguido o planejamento de experimento dado
por Harkins et al. (2002), que consiste em remover algumas das instâncias anômalas
para formar uma base de dados com uma distribuição desbalanceada, e excluı́ as
16 instâncias com informações faltantes, de modo que restaram um total de 683
instâncias. Para desbalancear os dados a cada seis instâncias maligna uma foi
selecionada o resultado obtido foi uma amostra de 39 (8%) instâncias maligna, que
foram unidas às 444 (92%) instâncias benigna, [Harkins et al. (2002); He et al.
(2005); Willams et al. (2002)].
Os resultados mostraram que sem a inserção de anomalias, as instâncias da
classe maligna, e sem considerar um número mı́nimo de pontos a priori, o algoritmo
DBSCAN tende a considerar que cada ponto forma um grupo. Nas demais análise o
algoritmo DBSCAN identificou as quantidade exatas de instâncias malignas inseridas
em 100% dos casos, devido os dados formarem grupos bem separados. No entanto, a
medida que a quantidade estimada para o número mı́nimo de elementos por grupo
aumentava à sua acurácia diminua, por ser um algoritmo muito sensı́vel a estimativa
de seus parâmetros, ver Tabela 4.5 e Seção 2.4.2.
Para as análise de 10%, 18%, e 36% de malignos inseridos de um total de 39
instâncias no conjunto de dados de benignos obteve-se que o algoritmo K medóides
foi incapaz de identificar a presença de tais instâncias, apresentando assim igualmente
nos três casos a acurácia de 29.5 %. Nos casos, em que as quantidades de malignos

49
inseridas esteve entre 54% a 100% de um total de 39 instâncias, as predições corretas
variaram de 95% a 90%, e as acurácias obtidas foram de 96.5% a 90%, respectivamente,
ver Tabela 4.6.
O agrupamento de modelos Gaussianos robusto foi capaz de identificar todos os
casos malignos inseridos em cada iteração, e à sua acurácia variou entre 90% a 93%.
No entanto, uma limitação desse algoritmo é que apresenta uma alta taxa de falsos
positivos, ou seja, indica muito mais instâncias anômalas do que realmente estão
presentes na base de dados, ver Tabela 4.7.
A Figura 4.1 apresenta a eficiência dos três métodos utilizados para a base de
dados de Câncer de Mama Wisconsin desbalanceada com 39 casos malignos e 444
casos benignos. A estimativa do kernels dos dados foi analisada, nesta análise nota-se
que a formação de dois grupos, tendo poucos pontos de distintas classes misturadas.

Figura 4.1: Gráfico da Curva ROC referente aos modelos DBSCAN, K medoids,
Robusto EM para os dados mama. Projeção do conjunto de dados de Câncer de
Mama Wisconsin em kernel de dois componentes principais usando um kernel de
função de base radial Gaussiana.

4.3 Análise do conjunto de dados de Spam


O conjunto de dados Spam é formado por 4601 e-mails, sendo que 1813 (39.4%)
foram rotulados como spam, e 2788 (60.6 %) foram rotulados como não spam, e um
total de 57 atributos que indicam a frequência de certas palavras e caracterı́sticas
desses e-mails, excluindo a classe deles. Os dados foram obtidos nos laboratórios de
Hewlett Packard.
Este estudo têm-se uma quantidade relativamente grande de instâncias, e nesse
caso frequentemente os algoritmos de agrupamento de dados tradicionais não apre-
sentam desempenhos satisfatórios.
O algoritmo DBSCAN mostrou-se eficiente para análises com estimativas de
número mı́nimo de elementos por grupo até 73 pontos, acima deste valor o seu
desempenho foi ineficiente, ver Tabela 4.5.
Na execução do algoritmo K medóides notou-se que as menores quantidades de
acertos foram obtidas quando se analisou baixas porcentagens de instâncias spans

50
inseridas de um total de 1813 instâncias. Nos casos de porcentagens de 97% e 100%
em ambos os casos obteve 72% de identificações corretas com respeito a presença de
anomalias, ver Tabela 4.6. O agrupamento de modelos Gaussianos robusto apresentou
um alto custo computacional, o que inviabilizou à sua aplicação em todas as análises.
Considerou-se uma amostra de 4000 instâncias para a construção do kernel
dos dados. Nesta análise observou que poucos pontos estão dispersos da forma
caracterı́stica desse kernel, ver Figura 4.2 .

Figura 4.2: Gráfico da Curva ROC referente aos modelos DBSCAN, K medóides,
Robusto EM para os dados Spam.Projeção dos dados spam em kernel de dois
componentes principais usando um kernel função de base radial.

4.4 Análise do conjunto de dados de Musk


O conjunto de dados Musk é formado por 476 instâncias. As instâncias foram
classificadas por especialistas humanos como 207 (43.5%) instância como musk, e as
demais 269 (56.5 %) instâncias como não musk. Esses dados contém um total de 167
atributos que descrevem a geometria das moléculas. Neste estudo a anomalia é a
presença de musk no conjunto de dados.
O algoritmo DBSCAN nesta aplicação, em todas as análises realizadas se mostrou
ineficiente, devido a grande quantidade de atributos analisados.
O algoritmo K medóides apresentou a menor quantidade de acerto (27%) nas
análises com as porcentagens de musk inseridas de 36% e 97 %. No caso em que a
porcentagem de anomalia é de 207 (100%) apresentou seu melhor desempenho que é
de 72% de acertos, ver Tabela 4.6.
Os resultados apresentados pelo modelo de mistura de Gaussianas foram ineficiente
com porcentagens de acerto em torno de 40%, além de uma alta taxa de falsos
positivos, ver Tabela 4.7.

51
A eficiência dos três algoritmos utilizados neste estudo, para o caso de um sexto
do total das anomalias inseridas na base de dados, ver Figura 4.3.

Figura 4.3: Gráfico da Curva ROC referente aos modelos DBSCAN, K medoids,
Robusto EM para os dados Musk.

Como se esperava os três métodos apresentaram desempenhos ineficientes, no


geral, quando aplicados em conjuntos de dados com alta dimensão.

4.5 Análise do conjunto de dados Promotergene


O conjunto de dados Promotergene contêm sequências de DNAs de genes pro-
motores (+) e de genes não promotores (-) organizadas em 106 instâncias e 57
atributos, excluindo a classe. A quantidade presente de cada uma das duas classes
no conjunto de dados é de exatamente 50%. Todos os 57 atributos assumem quatro
nı́veis: ”a”,”c”,”g”,”t”. Neste estudo a classe não promotores foi adotada como
anômala.
A estimativa do kernel dos dados apresenta uma forma esférica homogênea com
poucos pontos dispersos e nota-se sobreposição de pontos de classes, ver Figura 4.4.

Tabela 4.2: Resultos referente ao conjunto de dados Promotergene


Métodos
a b
V A DBSCAN K medoides Modelo de mistura
3 3 0 (0.5) 3 (0.77) 1 (0.44)
5 6 0 (0.50) 3 ( 0.57) 3 (0.57)
10 6 0 (0.50)
15 6 0 (0.50)
20 9 0 (0.50) 6 (0.61) 6 (0.45)
a
Porcentagem mı́nima de instâncias por grupo ou com maiores fatores
anômalos.
b
Quantidade de anomalias inseridas no conjunto de dados.

52
Figura 4.4: Gráfico da Curva ROC referente aos modelos DBSCAN, K medoids,
Robusto EM para os dados Promotergene. Projeção dos dados Promotergene em
duas caracterı́sticas usando kernel da função de base radial Gaussiana

Neste estudo, o algoritmo K medoides apresentou o melhor desempenho se


comparado aos algoritmos DBSCAN, devido o grupo ter uma forma esférica e
apresentar pontos nas fronteiras, ver Figura 4.4 e Tabela 4.2. O problema neste caso
é a limitação do algoritmos DBSCAN em tratar casos de pontos nas proximidades
dos grupos, [Karatzoglou et al. (2004)].
Apesar de tanto o modelo de mistura de Gaussiano robusto como o K medoides
pressuporem que os elementos de um grupo foram gerados por um modelo multivari-
ado Gaussiano, assim a forma dos grupos é convexa. Além disso, o modelo de mistura
considera a distância de Mahalanobis como um limiar de separação das classes, o
que não é uma medida robusta, o que o leva a apresentar grandes quantidades de
falsos positivos.

4.6 Análise do conjunto de dados de Ionosfera


O conjunto de dados Ionosfera consiste de dados de radar coletados por um
sistema em Goose Bay, Labrador. Esse sistema é composto de uma matriz faseada
de 16 antenas de alta frequência com potência total de transmissão na ordem de
6.4 quilowatts. Nos elétrons livres na ionosfera são considerados os radares bons,
em que há evidências de algum tipo de estrutura na ionosfera. Ao contrário, dos
radares ruins que não há evidências de estrutura. Neste estudo temos um total de
126 (35.9%) instâncias de radares ruins e 225 (64.1%) instâncias de radares bons.
Na Seção 4.8 e na Tabela 4.3 estão os resultados das análises realizadas conside-
rando uma base de dados muito desbalanceada, [Harkins et al. (2002)]. Trabalhamos
com um total 21 (um sexto) de 126 instâncias de radares ruins ( anomalias).
O algoritmo DBSCAN apresentou uma ótima performa-se (acurácia de 100%)

53
para a análise que a estimativa dada para o número mı́nimo de elementos por grupo
é menor ou bem próxima a quantidade de anomalias inseridas na base de dados. No
entanto, nas análises em que considerou-se estimativas maiores para esse parâmetro,
o seu poder preditivo cai em média 22% . O modelo de mistura também apresentou
um bom desempenho, o mesmo não pode ser dito do algoritmo K medoides, tendo o
pior desempenho deste estudo, ver Figura 4.5 e Tabela 4.3.

Figura 4.5: Gráfico da Curva ROC referente aos resultados obtidos dos algoritmos:
DBSCAN, K medóides, Modelo de mistura para dos dados Ionosfera.

Tabela 4.3: Resultos referentes ao conjunto de dados Ionosfera


Métodos
a b
Vizinhos Anomalias DBSCAN K medoides Modelo de mistura
5 2 1 (0.75) 2 ( 0.86) 1 (0.68)
7 4 2 (0.75) 3 ( 0.51) 4 (0.91)
10 8 4 (0.75)) 3 ( 0.45) 8 (0.83)
15 11 6 (0.77) 7 (0.45) 11 (0.83)
15 16 11 (0.84) 10 ( 0.45) 16 ( 0.86)
20 21 15 (0.83) 6 ( 0.72) 21 ( 0.84)
a
Quantidade mı́nima de instâncias por grupo ou com maiores fatores anômalos.
b
Quantidade de anomalias inseridas no conjunto de dados.

4.7 Conjunto de dados de Linfografia


O conjunto de dados de Linfografia foi obtida no Centro Médico do Instituto
de Oncologia, Ljubljana, Iugoslávia. Ele contém 148 instâncias, e 18 atributos
excluindo o rótulo. As instâncias foram rotuladas em quatro diferentes classes:
normal, metástase, linfa maligno, fibrose. As classes de maiores ocorrências são: a
metástase com 81 (54.7%) instâncias, e a linfa maligna com 61(41.2%) instâncias,

54
somando um total de 95.9% casos de referência. Os casos raros encontram-se nas
classes: normal com 2 (1.4%) instâncias e fibrose com 4 (2.7%) instâncias, somando
um total de 4.1% de anomalias.
O kernel dos dados Linfografia apresenta uma forma linear e a formação de dois
grupos bem separados, a menos de algumas classificações equivocadas, Figura 4.6. A
acurácia obtida do algoritmo k-medoides é 0.6409, e referente ao DBSCAN foi 0.50.
Foi reproduzido o planejamento de experimento de He et al. (2003). Aleatori-
amente quatro instâncias anômalas foram inseridas na base de dados inicialmente.
Na primeira análise o algoritmo DBSCAN foi capaz de identificar com precisão as
amostras anômalas de cada classe, assim como foi identificado nas demais análises
realizadas, apesar de seu poder preditivo ter reduzido de 63% para 0.50% para
estimativas de número mı́nimo de pontos por grupo superiores a 15. O algoritmo K
medoides apresentou um desempenho insatisfatório nas duas análises realizadas, e o
modelo de mistura não trabalha com atributos binários.

Figura 4.6: Gráfico da curva ROC referente aos resultados obtidos dos algoritmos:
DBSCAN, K medóides. Projeção dos dados Linfografia em duas caracterı́sticas
usando kernel da função de base radial Gaussiana.

Tabela 4.4: Resultos para o conjunto de dados Linfografia


Métodos
Vizinhos a Anomaliasb DBSCAN K medoides
7 4 4 (0.63) 2 (0.37)
15 4 4 (0.50)
22 4 4 (0.50)
30 6 6 (0.50) 2 (0.37)
a
Quantidade mı́nima de instâncias por grupo ou com maiores
fatores anômalos.
b
Quantidade de anomalias inseridas no conjunto de dados.

55
4.8 Resultados dos experimentos preliminares
Nesta Seção são apresentadas as tabelas com resultados obtidos dos experimentos
realizados baseados no planejamento feito por Harkins et al. (2002) em quatro
conjuntos de dados: Câncer de mama, Spam, Musk, e Ionosfera. Neste estudo, foram
aplicados algoritmos de agrupamentos de dados para detectar anormalidade nos
dados.

Tabela 4.5: Número de Anomalias Preditas pelo Algoritmo DBSCAN (Acurácia)


V a Ab Câncer de mama Spam Musk Ionosfera
1 10 4 (0.94) 181 (0.46) 0 (0.5) 2 (1)
2 18 7 (0.94) 326 (0.48) 0 (0.5) 3 (0.88)
4 36 14 (0.94) 652 (0.49) 0 (0.5) 6 (0.88)
6 54 21 (0.938) 0 (0.5) 0 (0.5) 9 (0.91)
8 69 27 (0.937) 0 (0.5) 0 (0.5) 10 (0.86)
10 82 32 (0.936) 0 (0.5) 0 (0.5) 13 (0.88)
12 90 35 (0.935) 0 (0.5) 0 (0.5) 13 (0.84)
14 97 38 (0.935) 0 (0.5) 0 (0.5) 13 (0.80)
16 100 39 (0.934) 0 (0.5) 0 (0.5) 14 (0.80)
18 100 39 (0.934) 0 (0.5) 0 (0.5) 14 (0.81)
20 100 39 (0.934) 0 (0.5) 0 (0.5) 14 (0.72)
25 100 39 (0.930) 0 (0.5) 0 (0.5) 14 (0.716)
28 100 39 (0.927) 0 (0.5) 0 (0.5) 15 (0.73)
a
Porcentagem mı́nima de instâncias por grupo ou com maiores fatores
anômalos.
b
Porcentagem de anomalias inseridas no conjunto de dados.

Tabela 4.6: Número de Anomalias Preditas pelo Algoritmo K medóides (Acurácia)


% de malignos Câncer de mama Spam Musk Ionosfera
10 0 (0.295) 60 (0.62) 6 (0.45) 1 (0.61)
18 0 (0.295) 118 (0.62) 14 (0.49) 2 (0.61)
36 0 (0.295) 220 (0.62) 20 (0.43) 5 (0.45)
54 20 (0.965) 289 (0.60) 29 (0.43) 6 (0.41)
69 24 (0.95) 376 (0.60) 39 (0.44) 8 (0.42)
82 29 (0.957) 393 (0.59) 50 (0.44) 11 (0.46)
90 30 (0.92) 451 (0.60) 54 (0.44) 11 (0.43)
97 30 (0.90) 1264 (0.40) 55 (0.43) 11 (0.41)
100 32 (0.90) 1309 (0.40) 150 (0.57) 11 (0.40)

Para detectar anomalias Hawkins et al (2002) considerou diferente porcentagem


de instâncias com altos escores anômalos ou fatores anômalos). A eficiência dos
algoritmos foi analisada segundo as taxas de verdadeiros positivos e falsos positivos.
A acurácia é a capacidade do algoritmo de bem classificar os dados em seus diferentes
grupos. Como apenas interessa a predição correta de anomalias. A medida da

56
Tabela 4.7: Número de Anomalias Preditas pelo Modelo de Mistura Robusto
(Acurácia)
% de malignos Câncer de mama Musk Ionosfera
10 3 (0.915) 14 (0.45) 2 (0.91)
18 7 (0.93) 14 (0.49) 4(0.90)
36 14 (0.91) 35 (0.57) 8 (0.92)
54 21 (0.927 ) 43 (0.65) 11 (0.90)
69 26 (0.91) 56 (0.67) 14 (0.91)
82 31 (0.928) 73 (0.64) 16 (0.89)
90 35 (0.92) 81 (0.65) 18 (0.88)
97 37 (0.928) 78 (0.68) 19 (0.89)
100 39 (0.90) 86 (0.66) 19 (0.88)

acurácia nem sempre é representativa, porque o algoritmo pode ter bem classificado
as anomalias com baixa taxa de falsos positivos e apresentar uma baixa acurácia
devido não ter bem classificado os dados de referência, ou vice versa. Os experi-
mentos realizados foram úteis para identicar como diferentes tipos de atributos, a
forma de agrupamento dos pontos e as estimativas dadas para os parâmetros dos
algoritmos influenciam a capacidade de preditiva dos métodos abordados. A seguir
são mostradas as Tabelas com os resultados das análises de quatro dos conjuntos de
dados investigados.

4.9 Sı́ntese do capı́tulo


Os experimentos preliminares foram construı́dos tendo como base os experimentos
realizados por Harkins et al. (2002), e He et al. (2003) para detecção de anomalias.
No entanto, os algoritmos investigados seguiram os objetivos desta pesquisa. Os
experimentos viabilizaram a confirmação das limitações e propriedades destacadas
pela literatura. Os conceitos básicos dos algoritmos utilizados são a base para a
construção da maioria dos algoritmos de análise de agrupamento de dado. A eficiência
de cada algoritmo proposto é fortemente relacionado com o cenário. Em particular
o algoritmo DBSCAN se mostrou fortemente influenciado pelas estimativas dos
parâmetros, e por valores nas fronteiras dos grupos. Os três algoritmos apresentaram
ineficientes quando aplicados a conjuntos de dados com alta dimensão. Contudo,
o modelo de misturas de Gaussianas robusto e o k medoides mostraram menor
eficiência se comparados ao DBSCAN de um âmbito geral. Supostamente é pelo fato
de tanto o modelo de misturas de Gaussianas como o k medoides não respeitarem a
formação natural dos grupos, e ambos formarem grupos com formas convexas.

57
Capı́tulo 5

Projeto de Pesquisa

Neste capı́tulo é apresentado as principais atividades a serem realizadas no


decorrer deste curso de doutorado. O conteúdo do capı́tulo está organizado nas
seguintes seções: na Seção 5.1 é apresentado uma breve descrição dos tópicos que
pretende-se pesquisar, e na Seção 5.2 é descrito as atividades que foram realizadas e
as que serão realizadas no decorrer deste curso de doutorado.

5.1 Abordagens Propostas


Construir um algoritmo não supervisionado para detectar anomalias considerando
subespaços. Um esquema do que se pretende desenvolver é apresentado no quadro
abaixo.

Entrada: Atributos relevantes.

Saı́da: Escores anômalos calculados para cada instância.

1) Construção do modelo

(i) Selecione um subespaço t, para um t ∈ (1, · · · , T );


(ii) Identifica-se nesse subespaço se existe a formação de grupos de pontos;
(iii) Se o número de grupos nesse subespaço for maior que um, ou seja, se
k > 1;
(iv) Seleciona um algoritmo para detecção de anomalias local;
(v) Seleciona vizinhanças de pontos para realizar as comparações;
(vi) Obtém-se os escores anômalos local;
(vii) Caso contrário, se o número de grupos nesse subespaço for igual a um, ou
seja, se k = 1;
(viii) Seleciona um algoritmo para detecção de anomalias global;
(ix) Obtém-se os escores anômalos global;
(x) Realiza todos as etapas de 1) para todos os subespaços de interesse.

58
2) Comparação de modelo

(i) Regularizar os T escores anômalos;


(ii) Normalizar os T escores anômalos;
(iii) Combinar os T escores anômalos.

Algumas das abordagens e questões a serem investigadas são descritas a seguir:

1. As pesquisas serão direcionadas para algoritmos de análise de agrupamento


para detecção de anômalias em subespaços, pelo fato de que cada instância
pode ser agrupada em múltiplos pontos de vista. Pressupõem-se que poucos são
os subespaços relevantes, e a busca por subespaços relevantes e a detecção de
anomalias são conjuntamente observadas. Para tratar o problema da seleção de
subespaços ótimo as técnicas propostas são: os métodos de seleção de atributo
wrapper, e filtro, [Muller et al.(2012)]; as funções de Hilbert, [Derksen (2007)];
o algoritmo CLIQUE, [Agrawal et al. (1998)], e modelo multinomial, [Pichara
e Soto (2011)].

2. As abordagens para detecção de anomalias local consideram que os dados foram


gerados por distintos mecanismos. Nesse contexto considerar-se conjuntos de
referência local ao invés de se considerar o conjunto de dados completo para
realizar comparações entre candidatos anômalos. O desafio dessa abordagem é
a seleção dos conjuntos de referência, na qual é usualmente selecionado segunda
a vizinhança de um dado ponto, [Schubert et al. (2015)].

3. Identificar a estrutura dos dados nos subespaços, ou seja, verificar se existe a


formação de grupos de pontos em cada subespaço. Existem várias técnicas
desenvolvidas para esse propósito, por exemplo: testes de hipóteses Bayesianos,
algoritmos hierárquicos, modelos de mistura.

4. Funções para regularizar e normalizar diferentes tipos de escores anômalos


serão pesquisadas, como o objetivo de obter um significativo contraste entre
os escores das instâncias de referência e as instâncias anômalas, [Kriegel et al.
(2011)]. Outra, proposta recente é de utilizar uma medida de correlação para
comparar as classificações que permite um julgamento mais fino de similaridade
e dissimilaridade entre diferentes métodos de detecção de anomalias, [Schubert
et al. (2012)].

5. Os algoritmos a serem comparados precisam pertencer a classe de algoritmos


de análise de agrupamento em subespaço para que seja coerente a comparação.
Tais algoritmos se dividem em quatro categorias: algoritmos algébricos, métodos
iterativos, métodos estatı́sticos e métodos baseados em agrupamento espectral.
Dentre essas categorias as técnicas recomendadas para dados contaminados
são as baseadas na teoria: Bayesiana, de grafos e de probabilidades, [Sim et al.
(2013)].

59
5.2 Atividades e Cronograma
As atividades relacionadas neste doutorado tiveram inı́cio em março de 2014.
Desde então, foram cursadas as disciplinas exigidas pelo programa de pós-graduação
do ICMC e foram realizadas diversas pesquisas bibliográfica até que se encontra-se
uma classe de métodos que atendessem os objetivos desta pesquisa. A seguir, essas
atividades, conjuntamente com o cronograma para as próximas atividades vinculadas
ao perı́odo de doutoramento, serão descritas.

Disciplinas. O programa de pós-graduação do ICMC/ USP de São Carlos não exige


um número mı́nimo de créditos em disciplinas para a qualificação e para o
depósito da tese são necessários 44 crédito. Foram obtidos um total de 60
créditos em disciplinas cursadas durante o perı́odo de março de 2014 a junho
de 2015.

Pesquisa Bibliográfica. Faz parte do cronograma das atividades a revisão bibli-


ográfica que será realizada continuamente durante todo o perı́odo de doutorado
com o objetivo estar atualizada com relação as pesquisa da área.

Conjuntos de Dados. Pretende-se utilizar tanto conjuntos de dados artificiais


quanto conjuntos de dados reais para testar e comparar a qualidade dos
métodos propostos.

Pesquisa no Exterior. O tempo estimado no exterior deve ser de 12 meses viabi-


lizada por uma bolsa de doutorado sanduı́che na França.

Desenvolvimento e Implementação. Após a qualificação será iniciada a imple-


mentação das abordagens propostas e das técnicas do estado da arte. Pretende-
se utilizar, sempre que possı́vel, ferramentas de código aberto para acelerar o
desenvolvimento e facilitar a disponibilização do código para a comunidade
cientı́fica.

Realização dos experimentos. A realização dos experimentos visa comparar as


técnicas comumente utilizadas com as propostas neste trabalho. Pretende-
se analisar os resultados por meio de medidas de avaliação adequadas para
algoritmos de análise de agrupamento, sendo elas medidas de validação de
grupos, e métodos estatı́sticos.

Artigos. Elaborar e submeter artigos cientı́ficos, durante esse perı́odo, reportando


as contribuições obtidas.

Tese. Redigir o texto para a defesa da tese que será apresentada a uma comissão
examinadora.

O cronograma com as atividades desenvolvidas e a serem desenvolvidas é apre-


sentado na Tabela 5.2, dividido por semestres.

60
Tabela 5.1: Cronograma de atividades do doutorado
Pesquisa Bibliográfica
Disciplinas
Coleta dos Dados
Qualificação
Pesquisa no Exterior
Desenvolvimento e Implementação
Realização dos experimentos
Artigos
Tese

5.3 Sı́ntese do capı́tulo


Este capı́tulo procurou descrever alguns dos principais pontos relacionados a
este projeto de pesquisa. Na abordagem proposta, foram discutidas as ideias para
elaboração do trabalho a ser desenvolvido; o uso de conjuntos de dados como parte
integrante da pesquisa, os método a serem utilizados, procurou-se justificar às suas
escolhas. Ao final, foram descritas as atividades e o cronograma.

61
Referências Bibliográficas

[1] Achtert, E., Böhm, C., Kriegel, H. P., Kröger, P., e Zimek, A. (2006). Deriving
quantitative models for correlation clusters. In Proceedings of the 12th ACM
SIGKDD international conference on Knowledge discovery and data mining,
4-13. ACM.

[2] Aggarwal, C. C., e Philip, S. Y. (2005). An effective and efficient algorithm for
highdimensional outlier detection. The VLDB Journal, 14, 211–221.

[3] Agrawal, R., Gehrke, J., Gunopulos, D. e Raghavan, P. (1998). Automatic


subspace clustering of high dimensional data for data mining applications, in:
Proceedings ACM-SIGMOD International Conference Management of Data, pp.
94–105.

[4] Bennett, K. P., Fayyad, U., e Geiger, D. (1999). Density-based indexing for
approximate nearest-neighbor queries. In Proceedings of the fifth ACM SIGKDD
international conference on Knowledge discovery and data mining (pp. 233-243).
ACM.

[5] Bertoni, A., e Valentini, G. (2006). Ensembles based on random projections


to improve the accuracy of clustering algorithms. In Neural nets (pp. 31-37).
Springer Berlin Heidelberg.

[6] Bouveyron, C., Girard,S.,Andschmid, C. 2007. High-dimensional data clustering.


Comput. Statist. Data Anal. 52, 502–519.

[7] Derksen, H. (2007). Hilbert series of subspace arrangements. Journal of pure


and applied algebra, 209(1), 91-98.

[8] Fan, H. , Zaıane, O. R. , Foss, A., Wu, J. (2006). A nonparametric outlier


detection for efficiently discovering top-N outliers from engineering data. In
Proc. PAKDD.

[9] Filippone, M., Camastra, F. Masulli, F., Rovetta, S. (2007). A survey of kernel
and spectral methods for clustering. Pattern Recognition. Vol. 41 (1), 176–190.

[10] Fraley, C., e Raftery, A. E. (2002). Model-based clustering, discriminant analysis,


and density estimation. Journal of the American statistical Association, 97(458),
611-631.

62
[11] Gao, J., e Tan, P. N. (2006). Converting output scores from outlier detection
algorithms into probability estimates. In Data Mining, 2006. ICDM’06. Sixth
International Conference on (pp. 212-221). IEEE.

[12] Gionis, A., Mannila, H., Tsaparas, P. (2005). Clustering aggregation. 21st
International Conference on Data Engineering (ICDE 2005).

[13] Hawkins, D. M. (1980). Identification of outliers (Vol. 11). London: Chapman


and Hall.

[14] Harkins, S., He, H. X., Willams, G. J., Baxter, R. A. (2002). Outlier detec-
tion using replicator neural networks. InProceedings of the 4th international
conference on data warehousing and knowledge discovery, France(pp. 170–180).

[15] He, Z. Y., Deng, S. C., Xu, X. F. (2005). An optimization model for outlier
detection in categorical data. In Advances in intelligent computing, international
conference on intelligent computing, ICIC(1), Hefei, China (pp. 400–409).

[16] He, Z., Deng, S., e Xu, X. (2005). A unified subspace outlier ensemble framework
for outlier detection. In Advances in Web-Age Information Management (pp.
632-637). Springer Berlin Heidelberg.

[17] Hsu, C. M., e Chen, M. S. (2004). Subspace clustering of high dimensional


spatial data with noises. In Advances in Knowledge Discovery and Data Mining
(pp. 31-40). Springer Berlin Heidelberg.

[18] Jiang, F., Sui, Y, e Cao, C., (2009). Some issues about outlier detection in rough
set theory. Expert Systems with Applications, 36 4680–4687.

[19] Jing, L., Ng,M.K., Andhuang, J. Z. 2007. An entropy weighting k-means al-
gorithm for subspace clustering of high-dimensional sparse data.IEEE Trans.
Knowl. Data Eng. 19, 8, 1026– 1041.

[20] Kriegel, H., Kroger, P., Schubert, E., e Zimek, A. (2012). Outlier detection in
arbitrarily oriented subspaces. In Data Mining (ICDM), IEEE 12th International
Conference on (pp. 379-388). IEEE.

[21] Kriegel, H., Kroger, P., Schubert, E., e Zimek, A. (2011). Interpreting and
unifying outlier scores. In 11th SIAM International Conference on Data Mining
(SDM), Mesa, AZ (Vol. 42).

[22] Kriegel, H. P., Kröger, P., Schubert, E., e Zimek, A. (2009). Outlier detection
in axis-parallel subspaces of high dimensional data. In Advances in Knowledge
Discovery and Data Mining (pp. 831-838). Springer Berlin Heidelberg.

[23] Kriegel, H. P., Kröger, P., e Zimek, A. (2009). Clustering high-dimensional


data: a survey on subspace clustering, pattern-based clustering, and correlation
clustering. ACM Transactions on Knowledge Discovery from Data (TKDD),
3(1), 1.

63
[24] Kriegel, H. P., e Zimek, A. (2010). Subspace clustering, ensemble clustering,
alternative clustering, multiview clustering: what can we learn from each other?
Proceedings of MultiClustKDD.

[25] Kulis, B., Sustik, M.A., Dhillon, I.S. (2009b). Low-rank kernel learning with
bregman matrix divergences. Journal of Machine Learning Research, Vol. 10,
341–376.

[26] Lakhina, A., Crovella, M., e Diot, C. (2005). Mining anomalies using traffic
feature distributions. In ACM SIGCOMM Computer Communication Review
(Vol. 35, No. 4, pp. 217-228). ACM.

[27] Moise, G. , Zimek, Kroger, A., P., Kriegel, H.-P., e Sander, J. (2009). Subspace
and projected clustering: experimental evaluation and analysis, Knowledge and
Inform Syst (KAIS) 21(3) , 299–326.

[28] Müller, E. , Gunnemann, S., Assent, I., e Seidl, T. (2009). Evaluating clustering
in subspace projections of high dimensional data, In Proceedings of the 35th
International Conference on Very Large Data Bases (VLDB), Lyon, France,
2009, 1270–1281.

[29] Murthy, M. K., Govardhan, A., e Lakshmi SreenivasaReddy, D. A model to


find outliers in mixed-attribute datasets using mixed attribute outlier factor.
International journal of Computers Science Issues (IJCSI) Volume, 10.

[30] Müller, E., Assent, I., Iglesias, P., Mulle, Y., e Bohm, K. (2012). Outlier ranking
via subspace analysis in multiple views of the data. In Data Mining (ICDM),
IEEE 12th International Conference on pp. 529-538. IEEE.

[31] Müller, E., Schiffer, M., e Seidl, T. (2011). Statistical selection of relevant
subspace projections for outlier ranking. In Data Engineering (ICDE), IEEE
27th International Conference on (pp. 434-445). IEEE.

[32] Pichara, K., e Soto, A. (2011). Active learning and subspace clustering for
anomaly detection. Intelligent Data Analysis, 15(2), 151-171.

[33] Wei, L., Qian, W., Zhou, A., Jin, W., e Jeffrey, X. Y. (2003). Hot: hypergraph-
based outlier test for categorical data. In Advances in Knowledge Discovery and
Data Mining, 399-410. Springer Berlin Heidelberg.

[34] Willams, G. J., Baxter, R. A., He, H. X., Harkins, S., Gu, L. F. (2002).
A comparative study of RNN for outlier detection in data mining. InICDM,
Japan(pp. 709–712).

[35] Schubert, E., Zimek, A., e Kriegel, H. P. (2014). Local outlier detection re-
considered: a generalized view on locality with applications to spatial, video,
and network outlier detection. Data Mining and Knowledge Discovery, 28(1),
190-237.

64
[36] Schubert, E., Wojdanowski, R., Zimek, A., e Kriegel, H. P. (2012). On evalu-
ation of outlier rankings and outlier scores, In Proceedings of the 12th SIAM
International Conference on Data Mining (SDM), Anaheim, CA, 1047–1058.

[37] Schubert, E., Zimek, A., e Kriegel, H. P. (2015). Fast and Scalable Outlier
Detection with Approximate Nearest Neighbor Ensembles. In Database Systems
for Advanced Applications (pp. 19-36). Springer International Publishing.

[38] Sim, K., Gopalkrishnan, V., Zimek, A., e Cong, G. (2013). A survey on enhanced
subspace clustering. Data mining and knowledge discovery, 26(2), 332-397.

[39] Soltanolkotabi, M., Elhamifar, E., e Candes, E. J. (2014). Robust subspace


clustering. The Annals of Statistics, 42(2), 669-699.

[40] Vidal, R. (2010). A tutorial on subspace clustering. IEEE Signal Processing


Magazine, 28(2), 52-68.

[41] Ye, M., Li, X., e Orlowska, M. E. (2009). Projected outlier detection in high-
dimensional mixed-attributes data set. Expert Systems with Applications, 36(3),
7104-7113.

[42] Yu, K., Dang, X., Bart Jr, H. e Chen, Y. (2015). Robust model based learning via
spatial-EM algorithm. IEEE Transactions on Knowledge and Data Engineering,
27(6), 1670-1682.

[43] Zhang, Y., Meratnia, N., e Havinga, P. J. M. (2007). A taxonomy framework


for unsupervised outlier detection techniques for multi-type data sets.

[44] Zhang, W. e Kosecka, J. (2006). Ensemble method for robust motion estimation.
In 25 years of RANSAC workshop, CVPR.

[45] Zahn, C. T. (1971). Graph-theoretical methods for detecting and describing


gestalt clusters. Computers, IEEE Transactions on, 100(1), 68-86.

[46] Zimek, A. (2009). Correlation clustering, ACM SIGKDD Explor 11(1) , 53–54.

[47] Zimek, A., Schubert, E., e Kriegel, H. P. (2012). A survey on unsupervised


outlier detection in high dimensional numerical data. Statistical Analysis and
Data Mining: The ASA Data Science Journal, 5(5), 363-387.

65

Vous aimerez peut-être aussi