Vous êtes sur la page 1sur 63

UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA CURSO DE CINCIA DA COMPUTAO

APLICAO DE MINERAO DE DADOS NA AVALIAO DA RELAO ENTRE TEMPESTADES GEOMAGNTICAS E MUONS

TRABALHO DE GRADUAO

Miriam Pizzatto Colpo

Santa Maria, RS, Brasil 2011

APLICAO DE MINERAO DE DADOS NA AVALIAO DA RELAO ENTRE TEMPESTADES GEOMAGNTICAS E MUONS

Por

Miriam Pizzatto Colpo

Trabalho de Graduao apresentado ao Curso de Cincia da Computao da Universidade Federal de Santa Maria (USFM, RS), como requisito parcial para a obteno de grau de

Bacharel em Cincia da Computao

Orientador: Prof. Dr. Lisandra Manzoni Fontoura Co-orientador: Dr. Adriano Petry

Trabalho de Graduao N 336 Santa Maria, RS, Brasil 2011

Universidade Federal de Santa Maria Centro de Tecnologia Curso de Cincia da Computao

A Comisso Examinadora, abaixo assinada, aprova o Trabalho de Graduao APLICAO DE MINERAO DE DADOS NA AVALIAO DA RELAO ENTRE TEMPESTADES GEOMAGNTICAS E MUONS elaborado por Miriam Pizzatto Colpo como requisito parcial para obteno do grau de Bacharel em Cincia da Computao

COMISSO EXAMINADORA:

Prof. Dr. Lisandra Manzoni Fontoura (Presidente/Orientador)

Prof. Dr. Deise de Brum Saccol (UFSM)

Prof. Dr. Marcia Pasin (UFSM)

Santa Maria, 15 de Dezembro de 2011.

Quem pretende apenas a glria no a merece. MRIO QUINTANA

AGRADECIMENTOS
Agradeo primeiramente a Deus, por abenoar-me com a famlia que tenho, atravs da qual recebo, incondicionalmente, toda a fora e orientao necessrias para seguir minha vida, buscando a realizao do que anseio e acredito. Aos meus pais, Cludio e Eliane, pela educao, pela confiana e f que sempre depositaram em mim, pelo constante incentivo e, principalmente, pelo exemplo de carter que representam. minha irm, Danieli, que me acompanhou diariamente durante o perodo da graduao, pelos conselhos, risos e dificuldades compartilhadas. Ao meu irmo caula, Miccael, do qual senti saudades dirias durante a graduao (principalmente pelas brigas), por estar sempre na torcida pelo meu melhor. Aos amigos de todas as fases da minha vida, em especial Glivia, por fazer-se sempre presente, pelas gargalhadas, conversas e companhia. Aos colegas, tambm amigos, com quem convivi diariamente durantes esses ltimos quatro anos, que tornaram o perodo da graduao mais fcil e divertido, em especial aos meus queridos Bruno, Dorgas e FF (companheiros de tantos trabalhos, desesperos e risadas); Grahl e Reis (colegas de turma e INPE, companhias garantidas para cafs, ajuda em debugs e risos); Evandro, Nne, Proibido, Porto, Fabri, Nathan e lacaboys (Bernardo, Fred, Guilherme e Ccero). Meus sinceros agradecimentos tambm a todos os professores que de alguma forma j contriburam para o meu crescimento. Ao professor Fbio, da Escola Estadual de Educao Bsica Manoel Viana, por ter aumentado, atravs das suas aulas, o meu gosto pelas exatas. Ao professor Marcelo, da UFSM, por acompanhar nossa turma nos semestres iniciais do curso, sempre se mostrando preocupado com o nosso entendimento e apresentando as aplicaes dos Clculos na nossa rea, fazendo com que tudo parecesse fcil, com suas vrias explicaes e notvel gosto pelo que faz. professora Lisandra pela ajuda durante as vrias disciplinas ministradas durante o curso, por mostrar-se sempre acessvel e disposta a compartilhar seus conhecimentos e experincias, e por aceitar orientar este trabalho. professora Andrea pelos ensinamentos e pela indicao iniciao cientfica no INPE, da qual resultou este trabalho. Ao Dr. Adriano, por dar-me a oportunidade de participar de sua equipe e compartilhar seus conhecimentos, pela ateno, ajuda e orientao neste trabalho, como em todas as atividades nas quais estive envolvida no INPE. E, por fim, s professoras Deise e Marcia pelos ensinamentos e pela disponibilidade de fazerem parte da banca examinadora desse trabalho.

RESUMO
Trabalho de Graduao Curso de Cincia da Computao Universidade Federal de Santa Maria APLICAO DE MINERAO DE DADOS NA AVALIAO DA RELAO ENTRE TEMPESTADES GEOMAGNTICAS E MUONS Autor: Miriam Pizzatto Colpo Orientador: Prof. Dr. Lisandra Manzoni Fontoura Co-orientador: Dr. Adriano Petry Local e data da defesa: Santa Maria, 15 de dezembro de 2011. As tempestades geomagnticas vm sendo um objeto de estudo recorrente na rea de Clima Espacial, devido s consequncias que elas, em grandes intensidades, podem trazer para a superfcie terrestre. Ejees de massa coronal so potenciais causadoras desses fenmenos e podem ocasionar relevantes variaes na intensidade de raios csmicos secundrios, tais como os muons. O Instituto Nacional de Pesquisas Espaciais participa da Rede Global de Detectores de Muons atravs do Detector Multidirecional de Muons (MMD), instalado junto ao Observatrio Espacial do Sul, capaz de efetuar contagens da incidncia de muons na atmosfera terrestre em vrios canais direcionais. Este trabalho tem como objetivo a aplicao de algoritmos de minerao de dados aos dados de contagem do MMD a fim de possibilitar a descoberta de padres, verificando a associatividade dos muons s tempestades geomagnticas.

Palavras-chave: Muons, Tempestades Geomagnticas, Minerao de Dados.

ABSTRACT
Undergraduate Final Work Graduation in Computer Science Federal University of Santa Maria APPLICATION OF DATA MINING IN EVALUATING OF THE RELATION BETWEEN GEOMAGNETIC STORMS AND MUONS Author: Miriam Pizzatto Colpo Adviser: Prof. Dr. Lisandra Manzoni Fontoura Co-adviser: Dr. Adriano Petry The geomagnetic storms have been a recurring subject of study in the area of Space Weather, due to the consequences that they, in large amounts, can bring to the Earths surface. Coronal Mass Ejections are potential causes of these phenomena and can cause significant variations in the intensity of secondary cosmic rays, such as muons. The National Institute for Space Research participates of the Global Muon Detector Network by a Multidirectional Muon Detector (MMD), located at the Southern Space Observatory. This instrument performs the counting of muons incidence in the atmosphere at various directional channels. This study aims to apply data mining algorithms to count data from the MMD to enable the discovery of patterns, verifying the associativity of the muons to geomagnetic.

Keywords: Muons, Geomagnetic Storms, Data Mining.

LISTA DE FIGURAS
Figura 2.1. Diagrama dos principais fenmenos que constituem o Clima Espacial (Adaptado de: DAL LAGO, 2003)............................................................................................................. 17 Figura 2.2. As principais regies do sol. As regies dentro do Sol so definidas pela forma como a energia transferida do ncleo para a superfcie. As regies da atmosfera do Sol so definidas por sua densidade e temperatura (MOLDWIN, 2008).............................................. 17 Figura 2.3. Manchas solares registradas em 28 de outubro de 2003 (SOHO, 2011). .............. 18 Figura 2.4. Modelo do campo geomagntico (DAL POZ; CAMARGO, 2006). ..................... 19 Figura 2.5. Curva Dst entre os dias 5-8 setembro de 1982 com uma intensa tempestade magntica (YAMASHITA, 1999). ........................................................................................... 21 Figura 2.6. Esquema da deteco direcional de muons (PETRY et al., 2011). ........................ 23 Figura 2.7. Canais direcionais possveis no MMD composto por 36 detectores em cada camada (PETRY, 2010). ........................................................................................................... 24 Figura 2.8. Modelagem para o banco de dados do MMD (PETRY et al., 2011). .................... 26 Figura 2.9. A minerao de dados como uma etapa do processo de KDD (HAN; KAMBER, 2006). ........................................................................................................................................ 28 Figura 2.10. O processo iterativo e adaptvel CRISP-DM (Adaptado de: LAROSE, 2005). .. 29 Figura 3.1. Tela inicial do ambiente WEKA, mostrando as opes de acesso. ....................... 34 Figura 3.2. Interface Explorer do WEKA. ............................................................................... 35 Figura 3.3. Interface Experimenter do WEKA. ........................................................................ 36 Figura 3.4. Sees de um arquivo ARFF. ................................................................................ 37 Figura 3.5. Previso de tempo de chegada de CMEs a partir do sistema iSWA. ..................... 38 Figura 3.6. Arquivo ARFF para a abordagem baseada em dados de CMEs e variao de contagem de muons. ................................................................................................................. 39 Figura 3.7. Contagens de muons na direo vertical para a CME de fevereiro de 2011 prevista pelo iSWA. ............................................................................................................................... 40 Figura 3.8. Arquivo ARFF para a abordagem baseada em dados de Dst e variao de contagem de muons. ................................................................................................................. 41 Figura 3.9. Comportamento oscilatrio das contagens de muons. ........................................... 42 Figura 3.10. Funcionamento de uma mdia mvel. ................................................................. 42 Figura 3.11. Arquivos que compem o programa de criao de arquivos ARFF. ................... 43

Figura 3.12. rvore de deciso para dados de lentes de contato (Adaptado de: WITTEN et al., 2011). ........................................................................................................................................ 45 Figura 4.1. Exemplo de uma matriz de confuso apresentada pelo WEKA. ........................... 54 Figura 4.2. Matriz de confuso para o algoritmo DecisionTable. ............................................ 54 Figura 4.3. Matriz de confuso para o algoritmo DTNB. ......................................................... 55 Figura 4.4. Matriz de confuso para o algoritmo J48. .............................................................. 55 Figura 4.5. Matriz de confuso para o algoritmo RandomTree. ............................................... 55 Figura 4.6. Matriz de confuso para o algoritmo AdaBoostM1. .............................................. 55

LISTA DE TABELAS
Tabela 2.1. Classificao das tempestades geomagnticas pelo Dst (Adaptada de FEDRIZZI, 2003 apud MATSUOKA, 2010). ............................................................................................. 21 Tabela 4.1. Resultados obtidos pelos algoritmos para instncias classificadas corretamente. . 50 Tabela 4.2. Resultados obtidos pelos algoritmos para instncias classificadas incorretamente. .................................................................................................................................................. 50 Tabela 4.3. Resultados obtidos pelos algoritmos para o ndice Kappa. ................................... 51 Tabela 4.4. Resultados obtidos pelos algoritmos para o erro absoluto relativo. ...................... 51 Tabela 4.5. Resultados obtidos para F-Measure, por classe. ................................................... 52 Tabela 4.6. Resultados obtidos para a rea ROC, por classe.................................................... 53

LISTA DE ABREVIATURAS E SIGLAS


ARFF CMEs CRISP-DM Dst DTM FPGA GMDN GNU GPS ICMEs IMF INPE iSWA KDD MMD MMD-DB OES UFSM WDC WEKA Attribute-Relation File Format Coronal Mass Ejections Cross-Industry Standard Process for Data Mining Disturbance Storm-Time Decision Table Majority Field Programmable Gate Array Global Muon Detector Network General Public License Sistema de Posicionamento Global Interplanetary Coronal Mass Ejections Interplanetary Magnetic Field Instituto Nacional de Pesquisas Espaciais integrated Space Weather Analysis System Knowledge Discovery in Database Multidirectional Muon Detector Multidirectional Muons Detector Database Observatrio Espacial do Sul Universidade Federal de Santa Maria World Data Center for Geomagnetism Waikato Environment for Knowledge Analysis

SUMRIO
1 INTRODUO ................................................................................................................ 13 1.1 Objetivos .................................................................................................................... 14 Objetivo Geral .................................................................................................... 14 Objetivos Especficos ......................................................................................... 14

1.1.1 1.1.2 1.2 2

Estrutura do Texto ..................................................................................................... 15

FUNDAMENTAO TERICA ................................................................................... 16 2.1 Clima Espacial ........................................................................................................... 16 O Sol ................................................................................................................... 16 Campo Geomagntico ........................................................................................ 19 Tempestades Geomagnticas .............................................................................. 20 Raios Csmicos .................................................................................................. 21

2.1.1 2.1.2 2.1.3 2.1.4 2.2

Os Muons e a GMDN ................................................................................................ 22 Multidirectional Muon Detector (MMD) ........................................................... 22

2.2.1 2.3

Minerao de Dados .................................................................................................. 26 Descoberta de Conhecimento em Bases de Dados ............................................. 27 Modelo CRISP-DM ............................................................................................ 29 Tarefas de Minerao de Dados ......................................................................... 31

2.3.1 2.3.2 2.3.3 3

DESENVOLVIMENTO ................................................................................................... 33 3.1 Ambiente de Minerao WEKA ................................................................................ 33 Instalao e Configurao .................................................................................. 34 Interface WEKA ................................................................................................. 34

3.1.1 3.1.2

3.2

Preparao dos Dados ................................................................................................ 36 Formato de Arquivo ARFF ................................................................................ 36 Escolha de dados e estruturao de arquivos ARFF .......................................... 37 Programa para gerar os arquivos ARFF ............................................................. 42

3.2.1 3.2.2 3.2.3 3.3

Algoritmos de Minerao Aplicados ......................................................................... 44 rvores de Deciso ............................................................................................. 45 Regras de Classificao ...................................................................................... 46 Meta-Aprendizagem ........................................................................................... 47

3.3.1 3.3.2 3.3.3 4

RESULTADOS ................................................................................................................ 49 4.1 Resumo ...................................................................................................................... 50 Instncias Classificadas Correta e Incorretamente ............................................. 50 Estatstica Kappa ................................................................................................ 51 Erro Absoluto Relativo ....................................................................................... 51

4.1.1 4.1.2 4.1.3 4.2

Acurcia Detalhada por Classe .................................................................................. 52 F-Measure .......................................................................................................... 52 rea ROC ........................................................................................................... 53

4.2.1 4.2.2 4.3 5

Matriz de Confuso .................................................................................................... 54

CONCLUSO .................................................................................................................. 57

REFERNCIAS ....................................................................................................................... 59

13

INTRODUO

Segundo EMBRACE (2011), o Clima Espacial a rea de conhecimento dos fenmenos solares e suas ocorrncias, que se manifestam de forma recorrente e afetam os astros e artefatos no espao. Dentre os fatores importantes ao Clima Espacial, encontram-se o conhecimento e previso de fenmenos que afetam de forma direta as atividades humanas, tais como atividades solares e tempestades geomagnticas. As tempestades geomagnticas so distrbios no campo magntico da Terra, que ao ocorrerem, dependendo da intensidade, podem causar danos no espao e na superfcie terrestre, principalmente em sistemas tecnolgicos, tais como telecomunicao, energia eltrica e satlites. A fim de amenizar os possveis efeitos ocasionados por esse fenmeno, existe um esforo em pesquisas da rea de Clima Espacial para prev-lo, o que permitiria que aes fossem tomadas para garantir a integridade dos sistemas, dado um alerta de ocorrncia. Dentre as potenciais causas das tempestades geomagnticas esto as ejees de massa coronal interplanetrias (Moldwin, 2008), que so estruturas oriundas do sol que podem causar relevantes variaes na intensidade de raios csmicos primrios, partculas de alta energia que ao colidirem com a atmosfera terrestre do origem aos muons (raios csmicos secundrios). A relao entre as tempestades geomagnticas e a variao da intensidade de raios csmicos primrios, e, consequentemente, de muons, vm motivando o estudo dos dados de incidncia desses raios csmicos secundrios, o que explica a existncia de uma rede global de detectores de muons, que conta com a colaborao de dez instituies de seis pases. A Universidade Federal de Santa Maria (UFSM) e o Instituto Nacional de Pesquisas Espaciais (INPE) fazem parte dessa rede, representando o Brasil, atravs de um detector instalado junto ao Observatrio Espacial do Sul (OES/CRS/INPE-MCT), em So Martinho da Serra RS, responsvel por coletar dados de contagens da incidncia de muons em vrios canais direcionais com intervalos de freqncia de um minuto e dez minutos, gerando um volume de dados considervel.

14

A existncia de grandes volumes de dados, com possveis padres implcitos, permite a extrao de novos conhecimentos, uma tarefa humanamente impossvel que pode ser realizada por meio da minerao de dados. A minerao de dados uma forma de detectar padres, relaes, regras e associaes a partir de dados brutos, permitindo a extrao de conhecimentos teis a partir de grandes volumes de informaes (LAROSE, 2005). A minerao faz uso de tcnicas e algoritmos com caractersticas multidisciplinares, fundamentados em reas como anlise estatstica, banco de dados e inteligncia artificial (BERNARDI, 2010) e, embora tenha surgido no mbito comercial, vem sendo aplicada tambm no domnio cientfico.

1.1

Objetivos

1.1.1 Objetivo Geral O objetivo geral deste trabalho consiste em aplicar algoritmos de minerao de dados, com o apoio de uma ferramenta de minerao, aos dados de incidncia de muons, oriundos do detector brasileiro, a fim de verificar a associatividade desses raios csmicos secundrios s tempestades geomagnticas.

1.1.2 Objetivos Especficos


Conhecer a estrutura dos dados disponibilizados pelo detector de muons brasileiro; Definio e conhecimento de uma ferramenta de minerao de dados para ser usada; Analisar e escolher a tcnica e os algoritmos de minerao mais adequados ao caso especfico dos muons;

Preparar os dados, incluindo:

Buscar e escolher dados relevantes, que indiquem a ocorrncia de tempestades geomagnticas;

Desenvolver um software que colete as informaes escolhidas das fontes descobertas e as armazene em um arquivo com formato especfico de entrada da ferramenta de minerao escolhida;

15

Aplicar os algoritmos de minerao aos dados previamente preparados e analisar os resultados.

1.2

Estrutura do Texto Este trabalho est organizado da seguinte maneira: no Captulo 2 descrita uma

fundamentao terica sobre os assuntos abordados no trabalho, incluindo os conceitos fsicos acerca dos muons e das tempestades geomagnticas e uma reviso bibliogrfica de minerao de dados. No Captulo 3 explicado como o trabalho foi desenvolvido, apresentando a ferramenta escolhida, a preparao dos dados, a tcnica e os algoritmos considerados adequados para o domnio em questo. No Captulo 4 so apresentados os testes e os resultados obtidos atravs da aplicao dos algoritmos de minerao de dados. E, finalmente, no Captulo 5 so descritas as concluses deste trabalho.

16

FUNDAMENTAO TERICA

Este captulo trata dos conceitos fsicos envolvendo a relao Sol-Terra (Clima Espacial), incluindo as tempestades geomagnticas e os muons, alm dos conceitos tericos acerca da minerao de dados, a fim de proporcionar a devida compreenso dos fundamentos necessrios no desenvolvimento desse trabalho.

2.1

Clima Espacial Segundo MURALIKRISHMA (2009), o Clima Espacial a rea que estuda os

processos fsicos envolvidos na influncia que o Sol exerce nos planetas do meio interplanetrio, as causas e as consequncias dessa interao, sendo sua variabilidade causada principalmente pela influncia exercida sobre os planetas mais prximos do Sol, como a Terra. Na Figura 2.1 so apresentados os trs principais fenmenos partidos do Sol que podem resumir a relao Sol-Terra (DAL LAGO, 2003), interessando para este trabalho apenas o ltimo fenmeno, causador das tempestades geomagnticas.

2.1.1 O Sol O Sol uma estrela da Via Lctea de cerca de 4.5 bilhes de anos, constituda principalmente pelos elementos hidrognio (92.1%), hlio (7.8%), oxignio (0.061%), carbono (0.030%) e nitrognio (0.0084%). Ele contm mais de 99% da massa total do sistema solar e tem sua atmosfera, por conveno, dividida em trs principais camadas, representadas na Figura 2.2, que so: fotosfera, que a camada visvel a olho nu, cromosfera, acima da primeira, e coroa, que a camada mais externa da atmosfera solar (MOLDWIN, 2008).

17

RADIAO ELETROMAGNTICA CHEGADA: IMEDIATA DURAO: 1-2 HORAS

PARTCULAS DE ALTA ENERGIA CHEGADA: 15 MIN A POUCAS HORAS DURAO: DIAS

PARTCULAS DE BAIXAMDIA ENERGIA CHEGADA: 2-4 DIAS DURAO: DIAS

Raios-X, EUV

Eventos de Prtons
Interferncia em Satlites Interferncia em Radares Perda em Ondas Curtas

Tempestades Geomagnticas

Desorientao de Satlites Falha de Leitura de Sensores Danos em Espaonaves Falha em Cargas teis Radiao em Aeronaves Alta Altitude Perdas em Ondas Curtas

Carga e Arraste de Espaonaves Falhas em Espaonaves Erro em Trajetria de Lanamento Interferncia em Radares Anomalias na Propagao Rdio Black-Out de Energia Eltrica

Figura 2.1. Diagrama dos principais fenmenos que constituem o Clima Espacial (Adaptado de: DAL LAGO, 2003).

Figura 2.2. As principais regies do sol. As regies dentro do Sol so definidas pela forma como a energia transferida do ncleo para a superfcie. As regies da atmosfera do Sol so definidas por sua densidade e temperatura (MOLDWIN, 2008).

18

2.1.1.1 A Atividade Solar Segundo MURALIKRISHNA (2009) o Sol um corpo gasoso que est em constante atividade, a qual envolve processos fsicos que se iniciam no ncleo e resultam em eventos que podem ser observados nas camadas externas, como na fotosfera. A variabilidade solar caracterizada pela mudana no nmero de manchas solares (sunspots number), que so regies mais frias e escuras que as reas circunvizinhas, observadas na parte visvel do Sol, como mostrado na Figura 2.3.

Figura 2.3. Manchas solares registradas em 28 de outubro de 2003 (SOHO, 2011).

As observaes dos registros de manchas solares mostram um ciclo regular mdio de aproximadamente 11 anos da atividade solar (EDDY, 1976 apud ECHER et al.,2003), ou seja, a cada 11 anos o Sol passa por um perodo de mnima e outro de mxima atividade magntica. Durante o mximo solar, ocorre um grande aumento na ocorrncia de fenmenos energticos nas regies associadas s manchas solares (regies ativas). Estes fenmenos podem ser chamados de exploses ou flares solares, caracterizados pela emisso, em curtos intervalos de tempo (variando de alguns segundos at poucas horas, para os fenmenos mais intensos), de grandes quantidades de energia e podem estar relacionadas s ejees de massa coronal e tempestades magnticas na Terra (MILANE et al., 2003), que so explicadas a seguir nas Subsees 2.1.1.2 e 2.1.3, respectivamente. 2.1.1.2 Vento solar e CMEs Segundo MILONE et al. (2003), o vento solar um fluxo de eltrons e ons positivos expulsos do sol em alta velocidade, que se propaga pelo meio interplanetrio. O campo magntico do Sol no se limita apenas sua vizinhana e uma parte dele transportada em

19

direo ao meio interplanetrio atravs do vento solar, o que recebe o nome de Campo Magntico Interplanetrio (Interplanetary Magnetic Field - IMF) (MOLDWIN, 2008). Junto consigo, o vento solar pode transportar tambm estruturas solares, como as ejees de massa coronal (do ingls: Coronal Mass Ejections - CMEs), que podem ser associadas ocorrncia de tempestades magnticas na Terra (MURALIKRISHNA, 2009). As CMEs so grandes quantidades de matria, entremeadas de linhas de campo magntico, que so expulsas do Sol durante um perodo de vrias horas, formando uma enorme erupo que se expande para o espao exterior a velocidades de vrias centenas a poucos milhares de km/s (MILONE et al., 2003) e sua freqncia varia de acordo com o ciclo de atividade solar, aumentando o nmero de eventos no perodo de mxima atividade solar. As CMEs podem ter suas caractersticas alteradas ao atravessarem o meio interplanetrio e, para essa diferenciao, recebem o nome de ICMEs (do ingls: Interplanetary Coronal Mass Ejection) ao serem lanadas no meio interplanetrio.

2.1.2 Campo Geomagntico O campo geomagntico (ou campo magntico terrestre) pode ser, prximo superfcie, aproximado a um dipolo no coincidente com o eixo de rotao, como ilustrado na Figura 2.4, e tem a forma de uma barra magntica, tendo o Plo Norte Magntico (na regio rtica do Canad) e o Plo Sul Magntico (no sul da Austrlia) (DAL POZ; CAMARGO, 2006).

Figura 2.4. Modelo do campo geomagntico (DAL POZ; CAMARGO, 2006).

O campo geomagntico exerce grande influncia na variao da densidade de eltrons, tendo suas perturbaes refletidas em modificaes nas condies de transporte do meio

20

ionizado, e tem suas linhas de fora comprimidas por meio da ao do vento solar (MATSUOKA et al., 2010). O vento solar faz com que o campo magntico se confine e distora formando a magnetosfera, uma cavidade com uma cauda longa que se estende por vrios raios terrestres na direo anti-solar (FEDRIZZI, 2003 apud MATSUOKA et al., 2010). Durante eventos solares (como exploses e CMEs), o vento solar tem seus parmetros (velocidade e densidade) alterados, gerando uma alterao no campo geomagntico, o que contribui para a ocorrncia de tempestades geomagnticas (MATSUOKA et al., 2010).

2.1.3 Tempestades Geomagnticas Observaes baseadas em magnetmetros terrestres, feitas na metade do sculo XIX, constataram fortes flutuaes no campo magntico terrestre, sendo denominadas de tempestades geomagnticas (GONZALEZ et al., 1994 apud SAVIAN et at., 2005). Nas tempestades geomagnticas uma grande quantidade de energia transferida do vento solar para dentro da magnetosfera terrestre, o que intensifica as correntes eltricas na magnetosfera e na superfcie terrestre. Dentre os efeitos mais conhecidos dessas tempestades esto os diversos prejuzos em satlites, causando danos no Sistema de Posicionamento Global (GPS), em telecomunicaes e, at mesmo, em astronautas que se encontram em naves espaciais devido a alta radiao emitida (SAVIAN et al., 2005). 2.1.3.1 ndice Dst A intensidade de tempestades geomagnticas pode ser especificada por meio de ndices geomagnticos, sendo as caractersticas e a latitude de ocorrncia desses distrbios fatores influentes na escolha do ndice mais apropriado (TASCIONE, 1994 apud

MURALIKRISHNA, 2009). O ndice Dst (Disturbance Storm-Time) representa o invlucro das curvas de medidas magnetomtricas obtidas por uma cadeia de magnetmetros localizadas na regio equatorial do globo terrestre (YAMASHITA, 1999) e considerado como o ndice que melhor define a tempestade geomagntica, por apresentar um comportamento padro antes e aps ocorrncia de uma tempestade. Antes do incio de uma tempestade, o ndice apresenta um pico de intensidade, conhecido como fase inicial, que seguido pelo desenvolvimento da fase principal, caracterizada pela queda brusca do valor do ndice. Aps alcanar seu mnimo, o ndice inicia a recuperao de seu valor at atingir um valor calmo (que no caracteriza uma tempestade), fase conhecida como fase de recuperao (YAMASHITA, 1999). Essas fases

21

so representadas na Figura 2.5, atravs dos dados de Dst entre os dias 5 e 8 de setembro de 1982, quando ocorreu uma tempestade intensa, vide Tabela 2.1.

Figura 2.5. Curva Dst entre os dias 5-8 setembro de 1982 com uma intensa tempestade magntica (YAMASHITA, 1999). Tabela 2.1. Classificao das tempestades geomagnticas pelo Dst (Adaptada de FEDRIZZI, 2003 apud MATSUOKA, 2010).

Intensidade da Tempestade Inexistente Fraca Moderada Intensa Muito intensa

Dst (nT) Maiores que -30 De -30 a -50 De -50 a -100 De -100 a -250 Menores que -250

2.1.4 Raios Csmicos A Terra constantemente bombardeada por tomos altamente ionizados e outras partculas subatmicas, conhecidas como raios csmicos, que viajam com uma velocidade prxima a da luz e, na maioria, so ncleos de tomos. Embora sejam chamados de raios, os raios csmicos consistem em partculas energticas, que podem se originar fora da heliosfera (raios csmicos galcticos) ou se originar do Sol (partculas energticas solares). Os raios csmicos podem ser compostos por qualquer elemento, alm de inclurem eltrons, psitrons (essencialmente um eltron com carga positiva) e outras partculas subatmicas. Por serem partculas carregadas, os raios csmicos tem seu movimento desviado pelos campos

22

magnticos galcticos ao se propagarem pelo espao interestelar, sendo espalhados em todas as direes (MOLDWIN, 2008). Ao atingirem a atmosfera terrestre os raios csmicos de alta energia colidem com partculas atmosfricas, gerando chuvas de partculas secundrias que atingem a superfcie. A criao de pons, partculas subatmicas incomuns, um subproduto dessas colises, que decaem rapidamente e produzem muons, neutrinos e raios gama (MOLDWIN, 2008).

2.2

Os Muons e a GMDN Os muons, como mencionado na Seo 2.1.4, so partculas secundrias resultantes da

coliso inelstica de partculas primrias de alta energia com partculas da atmosfera terrestre, que mantm a direo e o sentido do raio csmico primrio que os originou. Os muons so partculas com alto poder de penetrao e massa aproximadamente 210 vezes maior que a do eltron, com tempo de vida (em repouso) aproximado a 2x10-6 s, atingindo a superfcie terrestre devido suas velocidades relativsticas (SILVA, 2005). As estruturas solares que se propagam no meio interplanetrio, tais como as CMEs, afetam a populao de raios csmicos galcticos pr-existentes de diversas formas, como no decrscimo de Forbush, que a diminuio da contagem de raios csmicos observados na superfcie durante distrbios geomagnticos (SAVIAN, 2005), podendo esse decrscimo ser refletido na incidncia de muons. A Rede Global de Detectores de Muons (do ingls: Global Muon Detector Network GMDN) uma colaborao de dez instituies de seis pases, que tem como objetivo usar os dados de contagens direcionais da incidncia de muons obtidos por quatro detectores de pases diferentes para estudos da previso de estruturas solares potenciais causadoras de tempestades geomagnticas.

2.2.1 Multidirectional Muon Detector (MMD) A incidncia e a direo dos muons podem ser obtidas por meio da medio de cintilaes em um conjunto de detectores dispostos em duas camadas, separadas por uma placa de chumbo de 5cm de largura. Por serem partculas de alta energia, os muons, geralmente, so capazes de atravessar essa placa, sendo os sentidos das incidncias obtidos

23

pela anlise da correlao entre a deteco de cintilaes nas partes superior e inferior, como ilustrado na Figura 2.6 (PETRY et al., 2011).

Figura 2.6. Esquema da deteco direcional de muons (PETRY et al., 2011).

O Instituto Nacional de Pesquisas Espaciais (INPE) e a Universidade Federal de Santa Maria (UFSM) so as duas instituies brasileiras a colaborarem com a GMDN, atravs do Detector Multidirecional de Muons (do ingls: Multidirectional Muon Detector - MMD), instalado no Observatrio Espacial do Sul, OES/CRS/INPE MCT, localizado em So Martinho da Serra no Rio Grande do Sul. O MMD brasileiro teve sua instalao realizada em 2001, em uma parceria INPEUFSM, atravs da cooperao Brasil Japo EUA em Clima Espacial. O aparelho era constitudo inicialmente por quatro detectores dispostos na camada superior e outros quatro na camada inferior, fornecendo informaes em nove canais direcionais (V, N, S, E, W, NE, NW e SE, SW). Aps uma atualizao, realizada em 2005, o MMD passou a contar com duas camadas de 28 detectores, dando incio a operao do sistema de medio em treze canais direcionais (com o acrscimo de N2, S2, E2, W2). Porm, o aumento de detectores poderia fornecer informaes em vrias outras direes, o que foi possvel em 2006, com a instalao de um sistema de captura por FPGA (Field Programmable Gate Array) (PETRY, 2010). 2.2.1.1 Sistema de captura por FPGA O aumento no nmero de detectores tornou possvel mensurar 91 canais direcionais ao invs dos 13 tradicionais. Por isso, desde 2006, outro sistema de medio, baseado em hardwares especficos (FPGAs) est operando simultaneamente, considerando todas as possveis direes. O sistema opera fazendo medies para 119 canais, pois pretende-se aumentar o nmero de detectores para 36 por camada (em uma grade de quatro linhas por nove colunas), sendo que as direes ainda no contempladas pelos 28 detectores por camada atuais recebem valor igual a zero (PETRY, 2010).

24

Figura 2.7. Canais direcionais possveis no MMD composto por 36 detectores em cada camada (PETRY, 2010).

A Figura 2.7 ilustra os possveis canais direcionais para o novo sistema de contagem, mostrando uma viso superior do MMD, onde as flechas indicam as possveis direes combinando um detector da camada superior com um da inferior, que no aparece na imagem. Os canais so representados por coordenadas (x, y), que indicam a proximidade entre os detectores da camada superior e da camada inferior, sendo que o valor de y pode variar de 3 a 3 e o valor de x de -8 a 8, para o instrumento com 36 detectores por camada. Assim, a direo vertical (V) identificada pela coordenada (0, 0), levando em considerao 36 pares de detectores e a direo norte (N) pela coordenada (0, 1), considerando as contagens em 27 pares de detectores, por exemplo. Na configurao atual (com 28 detectores por camada), para coordenadas com x igual a -8, -7, 7 e 8, atribudo o valor zero (PETRY, 2010). 2.2.1.2 Informaes produzidas Os dados produzidos pelo MMD so gerados e armazenados em arquivos texto em um computador instalado no OES, que auxilia o funcionamento do instrumento. Eles so coletados com intervalos de tempo de um e dez minutos, sendo o registro feito em arquivos diferentes, um para cada resoluo temporal. Os arquivos de um e dez minutos contm, respectivamente, 60 e 144 linhas cada, ou seja, uma hora de operao do instrumento para o primeiro e um dia para o segundo. Esses arquivos so arranjados em subpastas, uma para cada ms, podendo os dados ser acessados remotamente. Os arquivos de dados gerados pelo MMD so, periodicamente, enviados para pesquisadores da Universidade de Shinshu, no Japo, que os disponibiliza on-line em ftp://ftp.bartol.udel.edu/takao/muon_data/ (PETRY et al., 2011). Os dados publicados on-line apresentam-se tambm por meio de informaes horrias

25

(calculadas a partir dos dados de dez minutos), onde existe um arquivo dirio, composto por 24 linhas (cada uma representando uma hora de contagens) (PETRY, 2010). 2.2.1.3 Banco de Dados Todas as informaes coletadas pelo MMD a partir de dezembro de 2006 so armazenadas em um banco de dados relacional, cuja implementao (incluindo modelagem e construo do banco de dados, alm do desenvolvimento de um software de carregamento dos dados para o banco) foi realizada pelo Dr. Adriano Petry, tecnologista do INPE, no ano de 2010. O MMD-DB (do ingls: Multidirectional Muon Detector Database) composto por oito tabelas relacionadas de forma um-para-muitos (1:N), como mostrado na Figura 2.8. As tabelas instrument_type, instrument e political_location servem para identificar o instrumento, possibilitando a incluso de outros detectores alm do MMD do OES e as demais tabelas so exclusivamente usadas para o armazenamento dos dados coletados pelo instrumento. Cada arquivo com dados de medies equivale a um registro na tabela muon_file, identificando a origem dos dados e cada linha desses arquivos representar um registro da tabela muon_data e diversos registros associados (um para cada direo) na tabela muon_directional_data. Os dados de contagem da incidncia de muons podem ser influenciados pela presso atmosfrica no momento da medio, existindo coeficientes baromtricos (calculados individualmente para cada canal direcional) para calibr-los. Esses coeficientes so armazenados na tabela normalization_coefficients, podendo cada registro da tabela directions ser associado a vrios registros da normalization_coefficients, visto que a normalizao das contagens feita individualmente para cada canal direcional, e vrias normalizaes podem ser identificadas, emperodos de tempo distintos. O campo pressure_corrected da tabela muon_directional_data identifica se a contagem associada est ou no normalizada, visto que alguns dados oriundos de arquivos com informaes horrias apresentam contagens direcionais j normalizadas barometricamente (PETRY, 2010).

26

Figura 2.8. Modelagem para o banco de dados do MMD (PETRY et al., 2011).

2.3

Minerao de Dados Estima-se que a quantidade de informaes armazenadas em banco de dados no mundo

dobra a cada 20 meses (WITTEN et al., 2011). O rpido crescimento desses volumes de dados excedeu em muito a capacidade humana de compreenso, sendo que a abundncia de dados sem a disponibilidade de ferramentas poderosas de anlise caracteriza uma situao de dados ricos, mas informaes pobres (HAN; KAMBER, 2006). Essa situao faz com que os dados de grandes repositrios, que poderiam ajudar na tomada de importantes decises dentro das corporaes, sejam raramente acessados, o que pode ser revertido atravs do uso de ferramentas de minerao de dados, que objetivam extrair conhecimentos teis embutidos a esses grandes repositrios (HAN; KAMBER, 2006).

27

Dentre as definies de minerao de dados, encontram-se: Minerao de dados a anlise de (muitas vezes grandes) conjuntos de dados observacionais a fim de encontrar relaes insuspeitas e resumir os dados em novas formas que so compreensveis e teis para o proprietrio dos dados (HAND et al., 2001). A minerao prov um mtodo automtico para descobrir padres em dados, sem a tendenciosidade e a limitao de uma anlise baseada meramente na intuio humana (BRAGA, 2005). Para WITTEN et al. (2011), a minerao de dados pode ser definida como um processo automtico ou (mais geralmente) semiautomtico de descoberta de padres em dados, devendo os dados existirem em quantidades substanciais e os padres encontrados possibilitar algumas vantagens (geralmente econmicas). Segundo KORTH et al. (2006), a minerao distingue-se da descoberta de conhecimento na inteligncia artificial (tambm chamada de aprendizado de mquina) ou na anlise estatstica apenas por lidar com grandes volumes de dados, armazenados principalmente em bancos de dados. A minerao de dados foi considerada um desenvolvimento com tendncia revolucionria, pela ZDNET News (apud LAROSE, 2005), o que pode se justificar por ser uma tecnologia impar, passvel de ser aplicada a uma variedade de domnios de problemas, alm de ter como caracterstica a multidisciplinaridade de seus algoritmos (que podem envolver reas como estatstica, matemtica, inteligncia artificial, recuperao de informao e processamento de sinais), o que faz com que melhorias possam surgir por meio de reas e metodologias diversas.

2.3.1 Descoberta de Conhecimento em Bases de Dados A aplicao de minerao de dados s obtm sucesso quando se pode garantir a integridade e acuracidade dos dados a serem usados. Para isso, existe um processo mais abrangente contendo fases que incluem desde a correta alimentao de bases de dados e definio de objetivos a serem alcanados no processo, at as fases de preparao, consolidao e, efetivamente, a minerao de dados (BERNARDI, 2010). Esse processo maior, do qual a minerao faz parte, denominado descoberta de conhecimento em base de dados (do ingls: Knowledge Discovery in Database - KDD) (BRAGA, 2005). KDD, como

28

todo processo, consiste de uma seqncia iterativa de passos (HAN; KAMBER, 2006), que so retratados na Figura 2.9.

Figura 2.9. A minerao de dados como uma etapa do processo de KDD (HAN; KAMBER, 2006).

na limpeza dos dados (primeiro passo) que dados corrompidos e inconsistentes so removidos. Essa etapa seguida pela integrao dos dados (segundo passo), quando dados de mltiplas fontes podem ser combinados. O terceiro passo corresponde seleo de dados, onde as informaes relevantes para a tarefa de anlise so recuperadas do banco de dados. Na quarta etapa ocorre a transformao dos dados, quando os dados passam a ser representados de formas adequadas para a minerao. O quinto passo corresponde minerao de dados, onde h a aplicao de algoritmos inteligentes com o objetivo de extrair padres dos dados. Aps a minerao, encontra-se a avaliao de padres (sexto passo), quando so identificados os padres verdadeiramente interessantes, que possibilitem a aquisio de novos conhecimentos. No stimo e ltimo passo, o conhecimento apresentado, sendo usadas tcnicas de visualizao e representao de conhecimento para apresentar o conhecimento extrado para os usurios (HAN; KAMBER, 2006).

29

2.3.2 Modelo CRISP-DM Segundo SHEARER (2000), em 1996, havia uma clara necessidade de um modelo de processo de minerao de dados que padronizasse a aplicao de minerao de dados e ajudasse as organizaes a criar seus prprios projetos de minerao. A construo de um modelo no proprietrio, documentado e livre permitiria s organizaes obterem melhores resultados no processo de minerao e incentivaria o uso das melhores prticas na indstria, proporcionando a maturidade do mercado. Assim surgiu o Cross-Industry Standard Process for Data Mining (CRISP-DM), provendo um processo padro para a aplicao apropriada de minerao de dados na resoluo de problemas comerciais e de pesquisa (LAROSE, 2005). O CRISP-DM estabelece um ciclo de vida dotado de seis fases para um projeto de minerao de dados. As fases obedecem a uma seqncia de execuo adaptativa, onde as prximas fases a serem executadas dependem das sadas das fases anteriores. A Figura 2.10 ilustra o ciclo de vida segundo o CRISP-DM, onde as dependncias mais comuns so indicadas pelas setas internas e o ciclo natural pelas externas (LAROSE, 2005).

Fase 1 - Compreenso do negcio

Fase 2 - Compreenso dos dados

Fase 6 Desenvolvimento

Fase 3 - Preparao dos dados

Fase 5 -Avaliao

Fase 4 - Modelagem

Figura 2.10. O processo iterativo e adaptvel CRISP-DM (Adaptado de: LAROSE, 2005).

As seis fases do CRISP-DM, definidas por SHEARER (2000), so: Fase 1 Compreenso do Negcio: Foca no entendimento dos objetivos do projeto a partir de uma perspectiva de negcios, convertendo esse conhecimento em uma definio do problema de minerao de dados, que seguida pelo desenvolvimento de um plano preliminar para atingir os objetivos. Esta fase

30

compreende a determinao dos objetivos do negcio, a avaliao da situao, a determinao dos objetivos da minerao e a produo do plano do projeto. Fase 2 Compreenso dos dados: Permite que, a partir de uma coleo inicial, o analista obtenha maior familiaridade com os dados, identificando problemas na qualidade, descobrindo ideias iniciais ou detectando subconjuntos interessantes para formar hipteses sobre informaes ocultas. Esta fase compreende a recolha dos dados iniciais, a descrio, a explorao e a verificao da qualidade dos dados. Fase 3 Preparao dos dados: Abrange as atividades para a construo do conjunto final dos dados a partir dos dados brutos. As tarefas incluem: seleo, limpeza, construo, integrao e formatao dos dados. Fase 4 Modelagem: Onde as tcnicas de modelagem so selecionadas e aplicadas, com devida calibrao dos parmetros a fim de obter bons resultados. Geralmente existem vrias tcnicas para o mesmo tipo de problema de minerao de dados, sendo que algumas possuem exigncias especficas quanto a forma dos dados, o que pode necessitar um recuo para a fase de preparao. Esta fase compreende a seleo da tcnica de modelagem, a gerao de casos de teste, a criao e a avaliao de modelos. Fase 5 Avaliao: Precede a implantao final do modelo construdo pelo analista de dados. fundamental para determinar se algum problema de negcio importante no foi suficientemente analisado, sendo que ao seu final deve-se decidir exatamente como usar os resultados da minerao de dados. Esta fase compreende a avaliao dos resultados, a reviso do processo e a determinao dos passos posteriores. Fase 6 - Desenvolvimento: Onde o modelo gerado anteriormente usado e o conhecimento descoberto apresentado ao interessado na minerao, para que este observe como pode usar o conhecimento obtido a seu favor. Esta fase compreende a implantao do plano, o monitoramento e manuteno do plano, a produo de um relatrio final e a reviso do projeto.

31

2.3.3 Tarefas de Minerao de Dados Segundo LAROSE (2005), a minerao de dados pode ser usada para realizar tarefas de descrio, estimativa, previso, classificao, agrupamento e associao, sendo que existem diversos algoritmos destinados a cada tarefa. Estas tarefas encontrem-se descritas a seguir. 2.3.3.1 Descrio A descrio usada para encontrar formas de descrever padres e tendncias existentes em dados, como, por exemplo, para descobrir evidncias de que funcionrios que foram demitidos so menos propensos a apoiar o chefe em uma eleio presidencial. Descries de padres e tendncias podem sugerir explicaes para tais padres e tendncias, devendo o modelo de minerao de dados ser o mais transparente possvel, a fim de que os resultados do modelo possam descrever padres claros, que possam ser explicados e interpretados intuitivamente. Alguns mtodos de minerao podem ser mais adequados para uma interpretao transparente, sendo que rvores de deciso podem fornecer uma explicao intuitiva e humanamente amigvel dos seus resultados, enquanto que redes neurais podem apresentar-se de forma obscura para no especialistas, devido sua complexidade. A alta qualidade da descrio pode, muitas vezes, ser obtida pela anlise exploratria de dados, um mtodo grfico de explorar dados na busca por padres e tendncias (LAROSE, 2005). 2.3.3.2 Estimativa A estimativa constri modelos com base em registros completos, atravs dos quais se estima o valor desconhecido de uma determinada varivel em um novo registro. Um exemplo de aplicao seria estimar a nota mdia de um estudante de ps-graduao com base na nota mdia de graduao do aluno. Vrios mtodos de estimativa amplamente utilizados so fornecidos pelo campo de anlise estatstica, como estimativa pontual, estimativa de intervalos de confiana, regresso linear simples e mltipla (LAROSE, 2005). 2.3.3.3 Previso A previso similar a estimativa e a classificao, exceto que para a previso os valores so previstos para o futuro. Um exemplo de aplicao seria a de prever o aumento de mortes no trnsito para o prximo ano se o limite de velocidade fosse aumentado. Os mtodos e tcnicas usados para a previso podem ser os estatsticos tradicionais, como na estimativa,

32

alm dos de descoberta de conhecimento, como redes neurais, rvores de deciso e dos vizinhos mais prximos (LAROSE, 2005). 2.3.3.4 Classificao A classificao similar a tarefa de estimativa, exceto que a varivel alvo categrica ao invs de numrica. A partir dessa varivel, so especificadas classes discretas relacionadas aos registros da base de dados. Os dados j classificados so analisados, ensinando o mtodo a classificar os outros registros, a partir das semelhanas. Um exemplo de aplicao seria identificar se um determinado comportamento pessoal ou financeiro indica uma possvel ameaa terrorista. Mtodos comuns de minerao usados para a classificao so os do vizinho mais prximo, rvores de deciso e redes neurais (LAROSE, 2005). 2.3.3.5 Agrupamento O agrupamento consiste em agrupar registros em classes de objetos similares, sendo cada cluster uma coleo de registros que se assemelham entre si e que se diferem dos registros pertencentes aos outros clusters. A diferena do agrupamento para a classificao que no agrupamento no h nenhuma varivel alvo. No se tenta classificar, estimar ou prever o valor de uma varivel, mas sim segmentar os dados de um conjunto em subgrupos, nos quais a semelhana entre os registros internos maximizada e a semelhana destes com os registros externos minimizada. Um exemplo de aplicao seria para o agrupamento da expresso de genes, onde grandes quantidades de genes podem apresentar comportamento semelhante. (LAROSE, 2005). 2.3.3.6 Associao A associao consiste na busca de relaes entre dois ou mais atributos, prevalecendo no mundo dos negcios, onde conhecida tambm como anlise de afinidade. A associao pretende a descoberta de regras para quantificar a relao entre os atributos, sendo estas regras da forma se antecedente, ento conseqente, juntamente com uma medida do apoio e confiana associada regra. Um exemplo de aplicao seria para determinar a proporo de casos em que um novo medicamento apresentar efeitos secundrios perigosos.

33

DESENVOLVIMENTO

Neste captulo so descritas as atividades realizadas durante o desenvolvimento do trabalho. Na Seo 3.1 apresentada a ferramenta de minerao de dados escolhida para uso, assim como comentrios a cerca de sua instalao e configurao. Na Seo 3.2 descrita a preparao dos dados para a minerao, incluindo a escolha dos dados relevantes para o problema, a obteno e a formatao deles. Em seguida, na Seo 3.3, so apresentados os algoritmos implementados pela ferramenta de minerao que foram escolhidos para a realizao dos testes.

3.1 Ambiente de Minerao WEKA


O WEKA foi escolhido por ser um framework livre de minerao de dados, consolidado nos ambientes acadmico e cientfico. Alm de ser multiplataforma, oferecer uma rica documentao e uma interface intuitiva, a ferramenta bastante referenciada em artigos e livros de minerao de dados, como em BOUCKAERT et al. (2010), BRAGA (2005) e WITTEN et al. (2011). O WEKA (Waikato Environment for Knowledge Analysis) uma coleo de algoritmos de aprendizagem de mquina para tarefas de minerao de dados (University of Waikato, 2011). A ferramenta fornece tambm um conjunto de algoritmos de preparao de dados e de validao de resultados, tendo sido desenvolvido na Universidade de Waikato, na Nova Zelndia (SILVA, 2004). O sistema escrito em Java, o que permite ser instalado em qualquer plataforma, e distribudo sobre os termos GNU General Public License, tendo recebido o nome de WEKA com o propsito de rimar com Mecca, uma ave encontrada apenas nas ilhas da Nova Zelndia (WITTEN et al., 2011).

34

3.1.1 Instalao e Configurao A ferramenta WEKA pode ser obtida por meio de seu site (University of Waikato, 2011a), onde existe uma seo de download que disponibiliza instaladores para diferentes verses em diversas plataformas (Windows, Linux e MacOS). A instalao bastante simples, bastando executar o instalador e dar seguimento s etapas, totalmente intuitivas, no sendo necessrias configuraes adicionais para sua execuo. Neste trabalho usada a verso 3.6 para Windows 7 do ambiente, tendo sido necessrio apenas incrementar a quantidade de memria utilizada pela mquina virtual Java antes da execuo do WEKA, visto que nos primeiros testes o sistema acusava insuficincia de memria e encerrava automaticamente. Para aumentar a quantidade de memria, foi alterada a linha maxheap=256m do arquivo RunWeka.ini, localizado na pasta de instalao da ferramenta, trocando o valor de 256 para 1024, aumentando o limite de memria as ser usada na execuo do WEKA para 1 Gb.

3.1.2 Interface WEKA O WEKA fornece uma interface uniforme para diferentes algoritmos de aprendizagem, pr e ps-processamento e avaliao, permitindo que seus usurios possam testar diversos mtodos, identificando os mais apropriados para o problema em questo. As implementaes de esquemas de aprendizagem reais podem ser consideradas o recurso mais valioso da ferramenta, sendo os recursos de pr-processamento de dados, que permite selecionar filtros em um menu e adequ-los diferentes necessidades, o segundo mais importante (WITTEN et al., 2011). Na Figura 3.1 apresentada a tela inicial do WEKA, havendo quatro opes de acesso s funcionalidades: Explorer, Experimenter, Knowledge Flow e Simple CLI.

Figura 3.1. Tela inicial do ambiente WEKA, mostrando as opes de acesso.

35

Explorer: a interface mais popular e interativa do WEKA, sendo apresentada na Figura 3.2. Ela permite a explorao rpida de dados e suporta o carregamento e a filtragem destes, alm da aplicao de diversos algoritmos de classificao, agrupamento, associao, seleo de atributos e visualizao (BOUCKAERT et al., 2010). A Explorer foi usada neste trabalho para a aplicao dos algoritmos de minerao.

Figura 3.2. Interface Explorer do WEKA.

Experimenter: uma ferramenta para criao de experimentos de aprendizagem de mquina, que avalia mtodos de classificao e de regresso. Ela permite comparao de desempenho e tabular resumos para incorporao em publicaes. Nela, experimentos podem ser configurados para executar em paralelo sobre diferentes computadores em rede (BOUCKAERT et al., 2010). A Experimenter representada na Figura 3.3 e foi usada neste trabalho para a escolha dos algoritmos de classificao usados.

Knowledge Flow: Permite que configuraes sejam projetadas para o processamento dos dados transmitidos. Pode-se especificar um fluxo de dados por componentes de conexo que podem representar fontes de dados, ferramentas de pr-processamento,

36

algoritmos de aprendizagem, mtodos de avaliao e mdulos de visualizao (WITTEN et al., 2011).

Figura 3.3. Interface Experimenter do WEKA.

Simple CLI: Consiste no acesso s funcionalidades bsicas do WEKA por meio de uma interface de linha de comando, que oferece um painel textual simples para a entrada de comandos, no sendo muito utilizado devido a oferta de formas mais intuitivas (WITTEN et al., 2011).

3.2 Preparao dos Dados


Com base no modelo CRISP-DM, em um processo de minerao de dados deve-se compreender e preparar os dados a serem utilizados antes da etapa de modelagem. As atividades relacionadas preparao dos dados realizadas neste trabalho so apresentadas nesta seo.

3.2.1 Formato de Arquivo ARFF O formato ARFF (Attribute-Relation File Format) um arquivo de texto com codificao ASCII, que descreve uma lista de instncias de um conjunto de atributos. Esse

37

formato foi desenvolvido pelo Projeto de Aprendizagem de Mquina no Departamento de Cincia da Computao da Universidade de Waikato para ser usado como formato padro de entrada de dados do WEKA (University of Waikato, 2011b). Os arquivos apresentam no incio o cabealho das informaes, que seguido pelos dados propriamente ditos, como ilustrado na Figura 3.4. No cabealho, a declarao @RELATION descreve o nome da relao e a @ATTRIBUTE contm o nome do atributo seguido de seu tipo de dado. A seo de dados iniciada com a declarao @DATA, seguida por linhas, que representam as instncias, com valores de atributos separados por vrgulas e na ordem em que foram declarados no cabealho.

Cabealho

Dados

Figura 3.4. Sees de um arquivo ARFF.

3.2.2 Escolha de dados e estruturao de arquivos ARFF Para o objetivo do trabalho, que avaliar a relao entre tempestades geomagnticas e dados de incidncias de muons, o arquivo de dados de entrada para a minerao deve ser estruturado de modo a conter atributos que identifiquem a situao de tempestades e a contagem de muons para mesmos perodos temporais. Durante o desenvolvimento deste trabalho, foi criado e alterado vrias vezes o arquivo de entrada de dados, modificando tanto a

38

formatao dos dados quanto os atributos usados, com a finalidade de melhorar a representatividade dos dados na posterior aplicao de algoritmos de minerao. As alteraes mais significativas so apresentadas a seguir. 3.2.2.1 Uso de dados de ocorrncia de CMEs e de variao de contagem de muons A primeira etapa para construir o arquivo de dados de entrada foi pensar em dados que pudessem indicar a ocorrncia de tempestades geomagnticas para posteriormente buscar por suas fontes, visto que os dados de contagens de muons j podiam ser acessados atravs do banco de dados (MMD-DB) apresentado na Seo 2.2.1.3. Inicialmente, pensou-se que um bom indcio de ocorrncia de tempestades seria a ocorrncia de CMEs, visto que as ejees podem estar associadas presena de tempestades. Na busca por fontes de dados de chegada de CMEs, foi encontrado o iSWA (integrated Space Weather Analysis System) (iSWA, 2011), um sistema desenvolvido pela NASA (National Aeronautics and Space Administration), que combina previses baseadas nos mais avanados modelos de Clima Espacial com informaes simultneas do ambiente espacial. As previses de tempo de chegada de CMEs so disponibilizadas pelo iSWA atravs de informaes de sada, chegada e durao do distrbio das CMEs, alm de intervalos de confiana para as previses, como mostrado na Figura 3.5.

Figura 3.5. Previso de tempo de chegada de CMEs a partir do sistema iSWA.

39

Com base nas informaes do iSWA, foi feita uma busca por todos os dados de CMEs ocorridos a partir de dezembro 2006 (primeiro ms de dados de muons armazenados pelo MMD-DB) at junho de 2011, tendo encontrado dados de 14 CMEs, nenhum anterior a 2010, o que pode se justificar por este ser um perodo de baixa atividade solar. Aps as fontes definidas, foi feita a estruturao do arquivo, consistindo da definio dos atributos (e dos tipos de dados) que iriam participar do arquivo de entrada de dados. O fato de diversos fatores ambientais poderem influenciar as contagens de muons faz com que possa acontecer, por exemplo, que em uma determinada poca do ano a incidncia de muons seja reduzida, sem caracterizar necessariamente uma tempestade geomagntica. Dessa forma o valor absoluto de contagem para um determinado momento no suficientemente representativo, sendo necessrio um valor adicional que represente a variao da contagem, tendo sido usada para isso a diferena percentual da contagem para sua anterior (usando-se intervalos de uma hora). Para as CMEs, decidiu-se usar um atributo que especificasse a distncia delas Terra, sendo esse valor calculado de acordo com o tempo de sada e chegada da CME, considerando que antes da emisso da CME o valor da distncia igual a um e ao chegar a Terra o valor igual a zero, sendo os valores dentro desse intervalo calculados proporcionalmente. A estrutura do arquivo em formato ARFF apresentada na Figura 3.6.

Figura 3.6. Arquivo ARFF para a abordagem baseada em dados de CMEs e variao de contagem de muons.

40

3.2.2.2 Uso de dados do ndice Dst e de variao de contagem de muons A pouca quantidade de dados de ocorrncia de CMEs no arquivo de dados de entrada da Seo 3.2.2.1 restringiu a aplicao de algoritmos de minerao, visto que alm de serem poucas as instncias que caracterizavam CMEs, estas ainda deveriam ser divididas para treinamento e teste dos algoritmos. Outro problema identificado, que desencorajou totalmente o uso dos dados de previso de CMEs como indcio de ocorrncia de tempestades geomagnticas, foi que para dados de algumas das CMEs, os dados de contagens de muons no apresentavam variao representativa, o que pode ser justificado pelo fato de estarem sendo usados dados de previso. Na Figura 3.7 so mostrados graficamente os dados de contagem para a direo vertical, desde o momento de sada at o momento de chegada (com o retngulo vermelho marcando o intervalo de confiana estabelecido para a chegada) do nico dado de CME do sistema iSWA para fevereiro de 2011, onde nota-se que as contagens apresentam um comportamento oscilatrio padro, sem decrscimos substanciais no intervalo de chegada da CME a Terra.

Figura 3.7. Contagens de muons na direo vertical para a CME de fevereiro de 2011 prevista pelo iSWA.

Com os problemas identificados no arquivo de dados inicialmente construdo no teria como confiar nos resultados da aplicao de algoritmos de minerao, visto que alm de poucos dados de ocorrncia de CMEs, os dados inconsistentes tambm influenciariam o treinamento dos algoritmos. Dessa forma, buscou-se por outra informao que caracterizasse tempestades geomagnticas para reestruturar e reconstruir o arquivo de entrada de dados, tendo sido encontrado o ndice Dst, apresentado na Seo 2.1.3.1, que expressa o grau de perturbao do campo magntico. Como fonte de dados do ndice Dst, foi usado o World Data Center (WDC) for Geomagnetism da Universidade de Kyoto, no Japo, que disponibiliza um sistema de download de arquivos com dados de Dst, que pode ser encontrado em Kyoto University

41

(2011). Para gerar e fazer o download de um arquivo necessrio informar o perodo temporal desejado, marcar a opo Dst Output e o formato IAGA2002 como formato de dados e informar um endereo de e-mail. A nova estrutura do arquivo, mostrada em formato ARFF na Figura 3.8, substitui o atributo distance da anterior por um atributo nominal que define a situao de tempestades geomagnticas a partir do valor de Dst (obtido a partir do arquivo de output gerado pelo WDC) de acordo com a Tabela 2.2 apresentada na Seo 2.1.3.1.

Figura 3.8. Arquivo ARFF para a abordagem baseada em dados de Dst e variao de contagem de muons.

3.2.2.3 Uso de dados do ndice Dst e de mdia mvel para a contagem de muon O arquivo de dados baseado no ndice Dst forneceu uma quantidade maior de instncias caracterizadas pela existncia de tempestades geomagnticas, o que agrega maior confiabilidade ao processo de minerao de dados. Porm, notou-se que o fato de as contagens de muons apresentarem um comportamento de contnua oscilao, faz com que, mesmo com as diferenas de uma contagem para sua anterior, a variao da contagem, comparada com o comportamento padro, seja mascarada. Na Figura 3.9 pode ser observado um decaimento correspondente a uma tempestade intensa (segundo o ndice Dst) em dezembro de 2006, e o apresenta em uma resoluo temporal maior, para que seja visvel a oscilao do valor das contagens. Embora se note um decaimento significativo atravs da anlise do grfico como um todo, analisando apenas a parte ampliada percebe-se que diferenas pontuais de contagens podem no ser capazes de indicar esse comportamento.

42

Figura 3.9. Comportamento oscilatrio das contagens de muons.

A fim de minimizar esse problema, atenuando-se as oscilaes de contagem, resolveuse aplicar uma mdia mvel simples (com funcionamento ilustrado na Figura 3.10) ao somatrio das contagens, sendo que o atributo count deixou de representar esse somatrio e passou a receber o valor da mdia calculada. Dessa forma o atributo diference deixou de ser calculado a partir dos valores brutos das contagens e passou a ter seu valor dependente dos valores obtidos aps a aplicao do filtro.
43,50 42,50 41,50 40,50 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 dados brutos

mdia mvel para grupos de 4 elementos

Figura 3.10. Funcionamento de uma mdia mvel.

3.2.3 Programa para gerar os arquivos ARFF Para a criao dos arquivos de entrada de dados em formato ARFF foi desenvolvido um programa em Java que acessa os dados de contagens de muons do MMD-DB atravs do framework Hibernate (Hibernate, 2011), usado para realizar o mapeamento objeto relacional das tabelas do banco e facilitar o acesso e uso dos dados. Os dados de contagens de muons so associados aos de tempestades geomagnticas de acordo com a equivalncia dos atributos temporais de medio de ambas as informaes. Inicialmente, os dados de CME eram inseridos via cdigo, visto que eram conseguidos manualmente a partir do sistema iSWA, que apresentava as informaes de previso CMEs de forma visual. Com a mudana para uso de dados Dst, a entrada de dados referentes s tempestades geomagnticas passou a ser feita atravs da passagem do endereo local do arquivo de output gerado pelo sistema do WDC.

43

3.2.3.1 Estrutura do Programa O software composto por arquivos responsveis pela configurao da conexo com o banco de dados, pelo mapeamento objeto relacional das tabelas, pela representao dos dados de tempestades e pela criao dos arquivos ARFF, como apresentado na Figura 3.11.

Classe de Criao de Arquivos ARFF

Classe Dst

Classes de Mapeamento

Arquivo de Conexo

Figura 3.11. Arquivos que compem o programa de criao de arquivos ARFF.

O arquivo hibernate.cfg.xml responsvel pela configurao do Hibernate para conexo com o banco de dados, onde so inseridas todas as informaes necessrias para o acesso ao banco, como driver, usurio e senha do banco de dados a ser usado. O mapeamento objeto relacional fez uso da conexo com o MMD-DB j estabelecida e foi realizado apenas para as tabelas necessrias para a aquisio dos dados de contagens em vrios canais direcionais, resultando em quatro classes de mapeamento (diretamente associadas aos arquivos de dados de contagens de muon): MuonFile, MuonData.java, MuonDirectionalData e Directions.java. Para a representao de dados de Dst que caracterizassem perodos de tempestades geomagnticas, foi criada a classe Dst.java, contendo atributos de horrio de medio, valor do ndice Dst medido e tipo da tempestade (baseado no valor do Dst). Essa classe conta com o mtodo getDstList responsvel por ler e interpretar o arquivo de dados de Dst, linha a linha, criando objetos de Dst referentes apenas a perodos caracterizados por tempestades e inserindo-os em uma lista, a qual retornada.

44

A criao dos arquivos ARFF, incluindo o pareamento de dados de muons e de tempestades para a escrita das instncias (cada uma em uma linha) no arquivo, feita na classe DataForMining.java, que a classe principal do programa, onde se encontra o mtodo main. Essa classe contm cinco mtodos principais:

getMuonsData: responsvel por retornar uma lista de objetos da classe de mapeamento MuonData.java para um determinado perodo de tempo.

getTotalCount: responsvel por retornar o somatrio total das contagens de muons em todos os canais direcionais para um determinado momento de medio.

applyFilter: responsvel por retornar o valor resultante da aplicao de mdia mvel para os somatrios de contagens direcionais (obtidos pelo mtodo getTotalCount) a um determinado grupo de elementos.

writeDataInFile: responsvel por escrever corretamente os dados passados por argumentos em uma linha no arquivo ARFF.

main: onde um novo arquivo contendo o cabealho dos dados ARFF criado e os mtodos getMuonsData e getDstList (da classe Dst.java) so chamados, obtendo-se uma lista de objetos Dst referentes a perodos de tempestades e uma lista de dados de contagens de muons. A lista de contagens de muons percorrida, sendo que para cada elemento da lista chamado o mtodo applyFilter, para o clculo da mdia mvel das contagens; buscado na lista de Dst o elemento com mesmo momento de medio, para realizar o pareamento dos dados; e chamado o mtodo writeDataInFile, para escrever os dados obtidos em uma linha do arquivo de dados.

3.3 Algoritmos de Minerao Aplicados


Dentre as tarefas de minerao de dados, a classificao foi considerada mais adequada para este trabalho, visto que se deseja treinar algoritmos de minerao para capacit-los a classificar instncias em uma varivel categrica, que, no caso, representa a situao de tempestades geomagnticas, que podem ser: inexistente, fraca, moderada, intensa ou muito intensa.

45

Nesta seo so apresentados os algoritmos de classificao escolhidos para serem aplicados ao arquivo de entrada ARFF. A escolha dos algoritmos se deu atravs do uso da interface experimenter do WEKA, onde comparaes foram feitas, contatando-se que, para este caso, os algoritmos dos subpacotes trees e rules da aba classify do WEKA apresentaram melhores resultados. Dessa forma, foram escolhidos dois algoritmos de cada subpacote (J48 e RandomTree, para rvores de deciso; e DecisionTable e DTNB, para regras de classificao), alm de um algoritmo de meta-aprendizagem, AdaBoostM1, usado para tornar um aprendiz fraco mais poderoso. Neste trabalho, o AdaBoostM1 foi combinado ao algoritmo DecisionTable, que, dentre os quatro primeiros algoritmos escolhidos, foi o que apresentou o maior erro absoluto relativo, como ser apresentado na Seo 4.1.3.

3.3.1 rvores de Deciso rvores de deciso so baseadas na estratgia de dividir para conquistar, podendo ser expressas de forma recursiva, onde, primeiramente, um atributo selecionado para ser colocado na raiz, tendo uma ramificao para cada possvel valor e dividindo, assim, as instncias de dados em subconjuntos. Esse processo repetido de forma recursiva para cada ramo, usando apenas as instncias que chegaram a ele, at que todas as instncias em um n tenham a mesma classificao, o que encerra o desenvolvimento da rvore nesse ramo. Na Figura 3.12 apresentado um exemplo de rvore de deciso para a definio do tipo de lentes de contato que um paciente necessita, de acordo com os sintomas apresentados.
Taxa de produo de lgrimas reduzida Nenhuma no Fraca miopia Forte normal Astigmatismo sim Prescrio de lentes hipermetropia Nenhuma

Figura 3.12. rvore de deciso para dados de lentes de contato (Adaptado de: WITTEN et al., 2011).

46

Dessa forma, em uma rvore de deciso os ns envolvem testes para um atributo particular e as folhas representam classes, sendo que para classificar uma instncia desconhecida, esta ser encaminhada para baixo da rvore de acordo com os valores dos atributos testados em ns sucessivos at alcanar uma folha, que definir sua classificao (WITTEN et al. 2011). 3.3.1.1 J48 O algoritmo J48 uma implementao em Java do algoritmo C4.5, para gerao de rvores de deciso, e, segundo ALMEIDA (2003), considerado o algoritmo mais popular do WEKA. O J48 se baseia em um conjunto de dados de treinamento para construir um modelo de rvore de deciso, que usado para classificar as instncias do conjunto de teste. Para a construo de uma rvore de deciso necessrio decidir como determinar o prximo atributo a ser usado como raiz da subrvore, sendo que o melhor atributo aquele que resultar em uma rvore menor. H vrias heursticas para essa escolha e no caso do J48 (assim como na maioria dos algoritmos de rvore de deciso) a heurstica baseada no ganho de informao, sendo que esse ganho aumenta de acordo com a pureza1 mdia dos subconjuntos que o atributo produz (WITTEN et al. 2011). 3.3.1.2 RandomTree Uma rvore randmica uma rvore construda aleatoriamente a partir de um conjunto de possveis rvores, sendo que cada rvore do conjunto de rvores tem a mesma chance de ser amostrada, ou seja, a distribuio das rvores uniforme. rvores aleatrias clssicas so construdas a partir de um nico vrtice e, a cada iterao, um novo vrtice, que tem uma probabilidade uniforme de se conectar a um vrtice j existente, adicionado. Segundo WITTEN et al. (2011), o algoritmo RandomTree, contido no WEKA, constri uma rvore que considera um determinado nmero de caractersticas aleatrias em cada n, sem executar nenhuma poda.

3.3.2 Regras de Classificao Regras de classificao, tambm chamadas de regras de produo, constituem uma forma de representao simblica, seguindo o formato: SE <antecedente> ENTO
1

Um alto grau de pureza representa que uma classe predominante em um conjunto de instncias.

47

<consequente>. O antecedente refere-se a expresses condicionais envolvendo atributos dos dados de entrada e o consequente refere-se a uma expresso que indica um valor para um atributo meta, obtido em funo dos valores dos atributos pertencentes ao antecedente. Algoritmos de regras de classificao geram um conjunto de regras a partir de um conjunto de dados de treinamento, sendo as regras resultantes usadas para classificar o restante das instncias de dados, pertencentes a um conjunto de teste. 3.3.2.1 DecisionTable O algoritmo DecisionTable constri um classificador baseado na utilizao de uma tabela de deciso com um mapeamento de regras para a classe majoritria. Essa representao chamada de DTM (Decision Table Majority) e constituda por um esquema, que o conjunto de caractersticas que esto includas na tabela, e um corpo, consistido de instncias rotuladas no espao definido pelas caractersticas definidas no esquema. Para classificar uma instncia, o classificador procura por casamentos perfeitos dentro da tabela, usando apenas as caractersticas do esquema, e retorna a classe majoritria da DTM, caso nenhuma instncia seja encontrada, ou as classes majoritrias de todas as instncias encontradas (KOHAVI, 1995). Uma opo do algoritmo usa o mtodo de vizinho mais prximo para determinar a classe de cada instncia no encontrada na tabela de deciso, com base no mesmo conjunto de caractersticas, ao invs da maioria global da tabela (WITTEN et al. 2011). 3.3.2.2 DTNB DTNB um classificador hbrido que combina uma tabela de deciso com o classificador Naive Bayes, um classificador simples e intuitivo que assume que os atributos so condicionalmente independentes (por isso denominado ingnuo) e que se baseia na regra de Bayes de probabilidade condicional. O DTNB divide os atributos em dois grupos, um modelado pela tabela e outro por Naive Bayes. Inicialmente, todos os atributos so modelados pela tabela de deciso, sendo feita uma busca gananciosa para decidir quais atributos devem ser modelados por Naive Bayes. Ao final, as previses geradas pelos dois mtodos so combinadas, usando a regra de Bayes (WITTEN et al. 2011).

3.3.3 Meta-Aprendizagem Algoritmos de meta-aprendizagem tm como parmetro um classificador base, e possuem o objetivo de transformar esse classificador em um aprendiz mais poderoso, podendo

48

seguir diversas abordagens para isso, como a de Boosting, mencionada a seguir, na Subseo 3.3.3.1. 3.3.3.1 AdaBoostM1 Boosting um mtodo geral para melhorar o desempenho de algoritmos de aprendizagem considerados fracos (embora tambm possa ser combinado a algoritmos fortes, como o C4.5). Esse mtodo executa repetitivamente um determinado algoritmo de aprendizagem em vrias distribuies sobre os dados de treinamento, combinando, ao final, os classificadores produzidos pelo algoritmo de aprendizagem em um nico classificador composto (FREUND, 1996). O mtodo de Boosting deriva os modelos individuais atravs de uma ponderao, que usada para dar mais influncia aos mais bem sucedidos. O algoritmo AdaBoostM1, contido no WEKA, implementa o mtodo de Boosting e pode ser acelerado atravs da especificao de um limite para a poda de pesos (WITTEN et al. 2011).

49

RESULTADOS

Neste captulo so apresentados os resultados obtidos atravs da aplicao dos algoritmos de minerao escolhidos (explicados na Seo 3.3) a um arquivo ARFF de entrada de dados, gerado pelo programa cuja implementao foi detalhada na Seo 3.2.3. O arquivo usado contem dados que vo desde 01 de dezembro de 2006 at 30 de outubro de 2011, tendo sido usada uma mdia mvel simples com grupos de trs elementos para a atenuao das oscilaes de contagens. A aplicao de cada um dos algoritmos escolhidos foi feita por meio da interface Explorer do WEKA, utilizando os valores padres de parmetros e k-validao cruzada, com 10 subconjuntos. A validao cruzada divide a amostra em k grupos (ou folds) de mesmo tamanho, sendo que o classificador treinado com k-1 desses subconjuntos e testado para o fold restante. Este procedimento repetido por k vezes, cada uma usando um subconjunto de validao diferente, sendo que, ao final, a taxa de acerto uma mdia das taxas de acerto nas k iteraes realizadas, fazendo desse mtodo uma boa opo para medir o desempenho dos algoritmos e dos erros. O desempenho dos algoritmos apresentado na sada de resultados do WEKA por meio de diversas medidas e estatsticas, organizadas em sees separadas ( Summary, Detailed Accuracy By Class e Confusion Matrix). A fim de facilitar a compreenso dos resultados e uma possvel comparao entre os algoritmos, as principais medidas de desempenho so explicadas, de acordo com WITTEN et al. (2011), separadamente nesta seo e acompanhadas de seus resultados para cada um dos algoritmos testados. O agrupamento das medidas, respectivo s Sees 4.1, 4.2 e 4.3, segue a mesma diviso apresentada nos resultados do WEKA, mencionada anteriormente.

50

4.1 Resumo
Nesta seo so apresentados valores estatsticos que resumem o modo como os classificadores esto habilitados a predizer as classes corretas.

4.1.1 Instncias Classificadas Correta e Incorretamente Indicam o total e a porcentagem de classificaes corretas e incorretas, respectivamente, realizadas por um algoritmo. Nas Tabelas 4.1 e 4.2, so apresentados esses valores para todos os algoritmos aplicados.
Tabela 4.1. Resultados obtidos pelos algoritmos para instncias classificadas corretamente. DecisionTable N de Instncias Porcentagem 40864 97.7304 % DTNB 40859 97.7184 % J48 40942 97.9169 % RandomTree 40972 97.9887 % AdaBoostM1 41117 98.3354 %

Tabela 4.2. Resultados obtidos pelos algoritmos para instncias classificadas incorretamente. DecisionTable N de Instncias Porcentagem 949 2.2696 % DTNB 954 2.2816 % J48 871 2.0831 % RandomTree 841 2.0113 % AdaBoostM1 696 1.6646 %

Analisando as resultados, percebe-se que, para todos os algoritmos, as porcentagens relativas s classificaes corretas foram bastante altas (e, consequentemente, as de classificaes incorretas bastante baixas), tendo sido o algoritmo DTNB, de regras de classificao, o que obteve menor taxa (embora tambm tenha sido alta). Outro fato a ser observado a porcentagem (a maior) obtida pelo algoritmo AdaBoostM1, que usou como classificador base o DecisonTable, o qual teve, realmente, seu poder de aprendizagem aumentado. Embora os valores tenham sido todos altos, com essas informaes, no se tem como verificar que todas as classes (inexistente, fraca, moderada, intensa, muito intensa), referentes a situao das tempestades geomagnticas, tiveram taxas semelhantes de acertos.

51

4.1.2 Estatstica Kappa ndice que compara o valor encontrado nas observaes com o valor que se pode esperar do acaso. Ele varia de 0 a 1 e quanto menor seu valor, menor a confiana da observao. Na Tabela 4.3, so apresentados os valores obtidos para esse ndice pelos algoritmos testados.
Tabela 4.3. Resultados obtidos pelos algoritmos para o ndice Kappa. DecisionTable Estatstica Kappa 0.703 DTNB 0.7018 J48 0.7302 RandomTree 0.7574 AdaBoostM1 0.8002

Pode-se notar que a ordem de desempenho dos algoritmos, tanto para a classificao de instncias de forma correta, quanto para o ndice Kappa, manteve-se a mesma, ou seja, os algoritmos que classificaram um nmero maior de instncias corretamente, segundo a Seo 4.1.2, apresentaram maior confiabilidade de acordo com o ndice Kappa.

4.1.3 Erro Absoluto Relativo o erro absoluto total calculado em relao ao que o erro deveria ter sido se a previso fosse a mdia dos valores reais. Valores mais baixos de erro significam maior preciso do modelo e, dessa forma, um valor prximo de zero equivale a um modelo estatisticamente perfeito. Na Tabela 4.4, os erros absolutos relativos obtidos pelos algoritmos aplicados so apresentados.
Tabela 4.4. Resultados obtidos pelos algoritmos para o erro absoluto relativo. DecisionTable Erro absoluto relativo 51.9196 % DTNB 51.3286 % J48 34.9907 % RandomTree 24.0813 % AdaBoostM1 19.9294 %

Nota-se que os valores de erro foram, em geral, menores para os algoritmos de maior confiabilidade (maior ndice Kappa), sendo que os algoritmos de rvore de deciso, mais uma vez, obtiveram melhores resultados que os de regras de classificao e o algoritmo AdaBoostM1, de meta-aprendizagem, tambm obteve uma reduo de erro significativa, comparando-o com o classificador base (DecisionTable). Pode-se observar tambm que,

52

mesmo sendo a diferena pequena, o algoritmo DecisionTable obteve uma taxa de erro maior que o DTNB, que possui maior ndice Kappa.

4.2 Acurcia Detalhada por Classe


Nesta seo so apresentadas medidas referentes acurcia da predio do classificador, detalhadas para cada uma das classes (inexistente, fraca, moderada, intensa, muito intensa) referentes ao atributo de situao das tempestades geomagnticas.

4.2.1 F-Measure Medida usada para mensurar o desempenho de um classificador, combinando valores de duas outras medidas, revocao e preciso, em uma nica frmula: 2 revocao preciso revocao + preciso Preciso o valor da predio positiva, sendo o resultado da diviso do nmero de casos positivos pelo total de casos cobertos, enquanto revocao o valor da cobertura de casos, tendo seu clculo feito atravs da diviso do nmero de casos cobertos pelo nmero total de casos aplicveis. Na Tabela 4.5 so apresentados os valores para F-Measures obtidos por cada classe individualmente, para cada um dos algoritmos aplicados.
Tabela 4.5. Resultados obtidos para F-Measure, por classe. DecisionTable Inexistente Fraca Moderada Intensa Muito Intensa 0.99 0.663 0.729 0.87 DTNB 0.99 0.662 0.727 0.87 J48 0.991 0.69 0.755 0.784 RandomTree 0.991 0.724 0.778 0.857 AdaBoostM1 0.993 0.769 0.807 0.923 -

Analisando os resultados da Tabela 4.5, percebe-se que, para todos os algoritmos, a classe que obteve valores maiores, indicando melhor desempenho, foi a Inexistente, seguida

53

por Intensa, Moderada e Fraca, nesta ordem. A classe Muito Intensa no foi avaliada por no existir nenhuma instncia referente a uma tempestade deste tipo no arquivo de dados de entrada usado. O fato das classes extremas (Inexistente e Intensa) apresentarem melhores resultados talvez possa ser justificado por elas possurem caractersticas mais expressivas, enquanto a classe Fraca, por exemplo, muitas vezes confundida com a Inexistente, por ser caracterizada por valores de atributos no muito distantes desta.

4.2.2 rea ROC A Curva ROC (Receiver Operating Characteristic) descreve o desempenho de um classificador desconsiderando a distribuio de classes ou custos de erros. Ela plota a taxa de verdadeiros positivos (nmero de positivos includos na amostra) no eixo vertical e a taxa de verdadeiros negativos (nmero de negativos includos na amostra) no eixo horizontal. A rea ROC indica a probabilidade que uma instncia positiva escolhida aleatoriamente no conjunto de dados de testes tem de ser classificada acima de uma instncia negativa escolhida aleatoriamente, com base no ranking produzido pelo classificador. O melhor resultado quando todas as instncias positivas so classificadas acima de todas as negativas, gerando um valor de rea ROC igual a um. Na Tabela 4.6, so apresentados os valores de rea ROC obtidos por cada classe individualmente, para cada um dos algoritmos aplicados.
Tabela 4.6. Resultados obtidos para a rea ROC, por classe. DecisionTable Inexistente Fraca Moderada Intensa Muito_Intensa 0.932 0.928 0.957 0.999 DTNB 0.932 0.928 0.961 0.999 J48 0.917 0.886 0.933 0.94 RandomTree 0.892 0.855 0.884 0.92 AdaBoostM1 0.963 0.953 0.982 1 -

Analisando-se a Tabela 4.6, pode-se notar que a classe com melhor desempenho, segundo a medida de rea ROC, para todos os algoritmos foi a Intensa, tendo inclusive alcanado o valor mximo (um) para o AdaBoostM1, o que significa que, neste caso, todas as instncias positivas foram classificadas acima das negativas no grfico da curva ROC.

54

Outras observaes a serem feitas so as de que, para essa medida, os algoritmos de regras de associao obtiveram maiores (e melhores) valores do que os de rvores de deciso e, embora, em geral, as classes Fraca e Moderada tenham obtido os menores valores, todos os valores (de todas as classes e algoritmos) foram bastante altos, o que caracteriza um bom desempenho.

4.3 Matriz de Confuso


A matriz de confuso apresenta a forma como as instncias foram classificadas entre as classes, mostrando o nmero de classificaes corretas para cada classe em oposio s classificaes preditas erroneamente para outras. Ela uma matriz quadrada nxn, onde n o nmero de classes, sendo que os verdadeiros positivos encontram-se na diagonal principal e os falsos positivos no restante da matriz. Dessa forma, se uma classificao for 100% correta, a matriz de confuso dever ser uma matriz diagonal. Na Figura 4.1, apresentado um exemplo de matriz de confuso para o conjunto de dados clssico da flor ris. Neste exemplo, a ris Setosa obteve 49 instncias classificadas corretamente (verdadeiros positivos) e apenas uma erroneamente (falso positivo), que foi classificada como ris Versicolor.

Figura 4.1. Exemplo de uma matriz de confuso apresentada pelo WEKA.

A seguir, nas Figuras 4.2, 4.3, 4.4, 4.5 e 4.6, so apresentadas as matrizes de confuso obtidas para os algoritmos usados.

Figura 4.2. Matriz de confuso para o algoritmo DecisionTable.

55

Figura 4.3. Matriz de confuso para o algoritmo DTNB.

Figura 4.4. Matriz de confuso para o algoritmo J48.

Figura 4.5. Matriz de confuso para o algoritmo RandomTree.

Figura 4.6. Matriz de confuso para o algoritmo AdaBoostM1.

Todas as matrizes de confuso apresentadas classificaram um nmero muito maior de instncias referentes inexistncia de tempestades corretamente (o que pode ser explicado pelo fato do arquivo de dados possuir muito mais instncias desse tipo, havendo mais dados para treinamento e teste) e apresentaram maior confuso para as classes Fraca e Moderada, o que j era esperado, de acordo com os resultados da Seo 4.2. Outra observao que pode ser feita a de que, para todos os algoritmos, a classe Fraca foi mais confundida com a Inexistente durante a classificao das instncias, da mesma forma que a Moderada teve instncias classificadas incorretamente em maior nmero para a classe Fraca, possivelmente devido proximidade dos valores de atributos

56

que as caracterizam. Alm disso, os algoritmos de rvores de deciso, J48 e RandomTree (Figuras 4.4 e 4.5), distriburam mais corretamente as instncias entre as classes do que os de regras de classificao, DecisionTable e DTNB (Figuras 4.2 e 4.3), e o algoritmo de metaaprendizagem, AdaBoostM1 (Figura 4.6), usado para tornar o classificador base DecisionTable (Figura 4.2) um aprendiz mais poderoso, confirmou seu bom desempenho, o que j era esperado, de acordo com os resultados vistos na Seo 4.1.

57

CONCLUSO

Neste trabalho foi apresentado todo o processo de aplicao de minerao a dados de incidncia de muons, oriundos do detector brasileiro, e de ndice Dst, indicador de perturbaes no campo geomagntico, com o apoio do ambiente de minerao de dados WEKA, a fim de avaliar a associatividade entre essas partculas secundrias (muons) e a ocorrncia de tempestades geomagnticas. Esse processo abrangeu etapas como a preparao dos dados (incluindo seleo, integrao e transformao destes) e o desenvolvimento de um software responsvel por armazenar os dados escolhidos em um arquivo ARFF (formato padro de entrada de dados do WEKA), alm da escolha e a aplicao de algoritmos de minerao. Para o domnio trabalhado, escolheu-se a tcnica de classificao, sendo que os algoritmos de minerao aplicados foram escolhidos por meio de comparaes e testes executados com o apoio da interface Experimenter do WEKA. Foram escolhidos dois algoritmos de classificao baseados em rvores de deciso, J48 e RandomTree, dois em regras de classificao, DecisionTable e DTNB, e um de meta-aprendizagem, AdaBoostM1, que foi combinado ao algoritmo DecisionTable (que apresentou a maior taxa de erro relativo absoluto dentre os quatro primeiros algoritmos) a fim de torn-lo um aprendiz mais poderoso. A anlise dos resultados obtidos pela execuo dos algoritmos de minerao, sobre o arquivo ARFF de dados trabalhado, confirma a relao entre a incidncia de muons e a ocorrncia de tempestades geomagnticas, visto que, embora a classificao das instncias em determinadas classes tenha apresentado uma taxa de acertos menor, todas as classes tiveram a maioria de suas instncias classificadas corretamente. Isto significa que os algoritmos detectaram e aprenderam determinados padres dos conjuntos de dados de treinamento, que

58

os capacitaram a classificar corretamente uma grande quantidade de instncias dos conjuntos de dados de teste. Como trabalhos futuros, poderiam ser usados dados da incidncia de muons medidos por outros detectores, que no o brasileiro, ou at mesmo outros indicadores de tempestades geomagnticas, a fim de validar os resultados obtidos atravs deste trabalho.

59

REFERNCIAS

ALMEIDA, L. M.; PADILHA, T. P. P.; OLIVEIRA, F. L; PREVIERO, C. A. Uma Ferramenta para Extrao de Padres. Revista Eletrnica de Iniciao Cientfica, v. 3, n.5, 2003. BERNARDI, E. F. F. Uma Arquitetura para Suporte Minerao de Dados Paralela e Distribuda em Ambientes de Computao de Alto Desempenho. 2010. Dissertao (Mestrado) - Pontfica Universidade Catlica do Rio Grande do Sul. BOUCKAERT, R. R.; FRANK, E.; HALL, M. A.; HOLMES, G.; PFAHRINGER, B.; REUTEMANN, P.; WITTEN, I. H. WEKA - Experiences with a Java Open-Source Project. Journal of Machine Learning Research, v. 11, p. 2533-2541, 2010. BRAGA, L. P. V. Introduo Minerao de Dados. 2. ed. Rio de Janeiro: E-Papers, 2005. DAL LAGO, A. Estudo de Estruturas Geoefetivas no Meio Interplanetrio e de suas Causas Solares. 2003. Tese (Doutorado em Geofsica Espacial) - Instituto Nacional de Pesquisas Espaciais. DAL POZ, W. R.; CAMARGO, P. O. Consequncias de uma Tempestade Geomagntica no Posicionamento Relativo com Receptores GPS de Simples Freqncia. Boletim de Cincias Geodsicas. Curitiba, v. 12, n. 2, p.275-294, 2006. ECHER, E.; RIGOZO, N. R.; NORDEMANN, D. J. R.; VIEIRA, L. E. A.; PRESTES, A.; FARIA, H. H. O Nmero de Manchas Solares, ndice da Atividade do Sol. Revista Brasileira de Ensino de Fsica, v. 25, n. 2, p. 157-163, 2003. ELMASRI, R.; NAVATHE, S. B. Sistemas de Banco de Dados. 4. ed. So Paulo: PearsonAddison-Wesley, 2005.

60

EMBRACE Estudo e Monitoramento Brasileiro do Clima Espacial. Introduo ao Clima Espacial. Disponvel em: http://www.inpe.br/climaespacial/introducao.php. Acesso em: Outubro de 2011. FREUND, Y.; SCHAPIRE, R. E. Experiments with a new boosting algorithm. In: International Conference on Machine Learning. Bari, p.148-156, 1996. HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. 2. ed. San Francisco: Morgan Kaufmann, 2006. HAND, D.; MANNILA, H.; SMYTH, P. Principles of Data Mining. 1. ed. Cambridge: MIT Press, 2001. Hibernate. Relational Persistence for Java and .NET. Disponvel em:

http://www.hibernate.org/. Acesso em: Outubro de 2011. iSWA - integrated Space Weather Analysis System. The integrated Space Weather Analysis System. Disponvel em: http://iswa.gsfc.nasa.gov:8080/IswaSystemWebApp. Acesso em: Outubro de 2011. Kyoto University. Plot and data output of Dst and AE indices (Hourly Values). Disponvel em: http://wdc.kugi.kyoto-u.ac.jp/dstae/index.html. Acesso em: Outubro de 2011. KOHAVI, R. The Power of Decision Tables. In: VIII European Conference on Machine Learning. Heraklion, p.174-189, 1995. KORTH, H. F.; SILBERSCHATZ, A.; SUDARSHAN, S. Sistemas de Banco de Dados. 5. ed. Rio de Janeiro: Campus, 2006. LAROSE, D. T. Discovering Knowledge in Data: an introduction to data mining. 1. ed. Hoboken: Wiley-Interscience, 2005. MATSUOKA, M. T.; COLLISCHONN, C.; CAMARGO, P. O. Anlise do desempenho do Modelo Global da Ionosfra do IGS no posicionamento por ponto durante perodos de tempestades geomagnticas: estudo de caso para 29-30 de outubro de 2003 na regio sul do Brasil. In: III Simpsio Brasileiro de Cincias Geodsicas e Tecnologias da Geoinformao. Recife, p.1-10, 2010.

61

MILONE, A. C.; WUENSCHE, C. A.; RODRIGUES, C. V.; JABLONSKI, F. J.; CAPELATO, H. V.; VILAS-BOAS, J. W.; CECATTO, J. R.; VILLELA NETO, T. Introduo Astronomia e Astrofsica. 2003. Disponvel em: mtc-

m18.sid.inpe.br/col/sid.inpe.br/jeferson/2003/08.14.15.10/doc/curso.pdf. Acesso em: Outubro de 2011. MOLDWIN, M. An Introduction to Space Weather. 1. ed.. New York: Cambridge University Press, 2008. MURALIKRISHNA, A. Previso do ndice Geomagntico DST utilizando Redes Neurais Artificiais e rvores de Deciso. 2009. Dissertao (Mestrado em Computao Aplicada) Instituto Nacional de Pesquisas Espaciais. PASSOS, E.; GOLDSCHMIDT, R. Data Mining: Um Guia Prtico. 1. ed.. Rio de Janeiro: Elsevier, 2005. PETRY, A. Construo do banco de dados para o detector multidirecional de muons MMD-DB. 2010. Relatrio Tcnico - Instituto Nacional de Pesquisas Espaciais. PETRY, A.; ARAUJO, F. V.; COLPO, M. P.; KATO, C.; BUENO, J.; SILVA, M. R.; VIEIRA, L. R.; KEMMERICH, N.; LAGO, A. D.; SCHUCH, N. J.Data management system for multidirectional muon detector. In: Twelfth International Congress of the Brazilian Geophysical Society, Rio de Janeiro, Brasil, 2011. SAVIAN, J. F.; SILVA, M. R.; DAL LAGO, A.; MUNAKATA, K.; GONZALEZ, W. D.; SCHUCH, N. J. Anlise de tempestades geomagnticas super intensas e de estruturas do meio interplanetrio relacionadas, atravpes da observao de raios csmicos de superfcie de alta energia. Revista Brasileira de Geofsica, v. 23, n. 2, p. 173-179, 2005. SHEARER, C. The CRISP-DM Model: the new blueprint for data mining. Journal of Data Warehousing, v.5, n.4, p.13-22, 2000. SILVA, M. R. Variao da intensidade dos raios csmicos em resposta a diferentes estruturas magnticas do meio interplanetrio. 2005. Dissertao (Mestrado em Geofsica Espacial) - Instituto Nacional de Pesquisas Espaciais. SILVA, M. P. S. Minerao de Dados: Conceitos, Aplicaes e Experimentos com WEKA. In: IV Escola Regional de Informtica do Rio de Janeiro e Esprito Santo. Rio das Ostras

62

e Vitria, Brasil, 2004. SOHO - Solar and Heliospheric Observatory. Gallery - Best of SOHO. Disponvel em: http://sohowww.nascom.nasa.gov/gallery/bestofsoho.html. Acesso em: Outubro de 2011. University of Waikato. WEKA 3 - Data Mining Software in Java. Disponvel em: http://www.cs.waikato.ac.nz/ml/weka. Acesso em: Outubro de 2011. University of Waikato. Attribute-Relational File Format (ARFF). Disponvel em: http://www.cs.waikato.ac.nz/ml/weka/arff.html. Acesso em: Outubro de 2011. WITTEN, I. H.; FRANK, E.; HALL, M. A. Data Mining: Practical machine learning tools and techniques. 3. ed. San Francisco: Morgan Kaufmann, 2011. YAMASHITA, C. S. Efeito das tempestades magnticas intensas na ionosfera de baixa latitude. 1999. Dissertao (Mestrado em Geofsica Espacial) - Instituto Nacional de Pesquisas Espaciais.

Vous aimerez peut-être aussi