Monografia VF - Bruno Carlos

.
EXTRAO DE CONHECIMENTO DA
PLATAFORMA LATTES UTILIZANDO TCNICAS
DE MINERAO DE DADOS: ESTUDO DE CASO
POLI/UPE
Trabalho de Concluso de Curso

Engenharia da Computao
Aluno: Bruno Carlos Sales de Morais

Orientador: Prof. Dr. Carmelo Jose Albanez Bastos Filho
Bruno Carlos Sales de Morais
Extrao de conhecimento da Plataforma

Lattes utilizando tcnicas de Minerao de
Dados: estudo de caso POLI/UPE
Monograa apresentada para obteno do Grau
de Bacharel em Engenharia da Computao
pela Universidade de Pernambuco
Orientador:
Prof. Dr. Carmelo Jose Albanez Bastos Filho
Departamento de Sistemas e Computao

Escola Politcnica de Pernambuco
Universidade de Pernambuco
Recife - PE, Brasil

dezembro de 2010
Resumo
Atualmente, existe uma grande diculdade na aquisio de dados sobre a produo cientca do corpo docente dentro das universidades brasileiras. Entretanto, a maior parte destas
informaes pode ser encontrada na plataforma Lattes - um sistema desenvolvido pelo CNPq
(Conselho Nacional de Desenvolvimento Cientco e Tecnolgico) para auxiliar na gesto de
cincia, tecnologia e inovao no Brasil. Minerao de Dados um conjunto de tcnicas que
podem ser utilizadas para extrao de novas informaes em uma base de dados. Desta forma,
a utilizao de tcnicas de Minerao de Dados pode ajudar na extrao de informaes importantes na plataforma Lattes. O presente trabalho apresenta uma ferramenta capaz de extrair
dados automaticamente de currculos da plataforma Lattes. Alm disso, o principal objetivo
deste trabalho aplicar tcnicas de Minerao de Dados nas informaes extradas dos currculos Lattes dos professores da Escola Politcnica de Pernambuco (POLI). Desta maneira,
as novas informaes podem ser utilizadas para auxiliar na tomada de decises dos gestores
da Universidade de Pernambuco com relao a investimentos nos cursos e nos docentes da
instituio.
Abstract
Nowadays, the Brazilian universities have a dicult task that is to collect the scientic
production of their researchers. However, this information is widely available on the Internet
by the Lattes platform - a web-based system developed by the CNPq (Conselho Nacional de
Desenvolvimento Cientco e Tecnolgico). The Lattes platform aims to help the management
of science, technology and innovation in Brazil. Data mining is a set of techniques that can
be used to extract patterns from a database. Thus, some techniques from Data Mining may
be used to extract useful information inside the Lattes platform. The goal of this research is
to present a tool to automatically extracts data from Lattes curriculums. Moreover, we used
some Data Mining techniques to extract hidden information from Lattes curriculums of the
professors of Polytechnic School of Pernambuco (POLI). This new information can be used to
guide decision making of investiments in the institution.
Agradecimentos
Primeiramente agradeo a Deus por me dar discernimento e foras para realizar este
trabalho, pois acredito que sem Ele no conseguiria superar as diculdades enfrentadas ao
longo deste curso.
Aos meus pais Edilson e Nadja que sempre me apoiaram e me encorajaram a concluir esta
graduao. Reconheo todo o esforo que eles zeram para que eu pudesse estudar sem a
preocupao de ter que trabalhar. Um agradecimento especial ao meu irmo Dyego Carlos
por todo o apoio, companheirismo e ajuda na realizao deste trabalho, que por muitas vezes
abdicou de dormir para me ajudar.
Aos meus avs maternos, Elza e Gabriel, e paternos, Dulcelene e Morais, pelo apoio
incondicional e sbios conselhos durante toda a minha vida.
Aos professores do curso de Engenharia da Computao, que sem dvida contriburam para
o que sou hoje como prossional e ser humano. Em especial agradeo ao professor Carmelo, que
mesmo com tantas ocupaes sempre esteve disponvel para me oferecer excelente orientao
durante todo este trabalho.
E por m, agradeo aos meus colegas de turma, em especial, Carlos Eduardo Buarque,
Francisco Marinho e Marcos Antonio, pelas muitas madrugadas que dividimos para que os
inesquecveis projetos desenvolvidos ao longo do curso pudessem ser concludos.
Sumrio
Lista de Figuras
p. iv
Lista de Tabelas
p. vi
Tabela de Smbolos e Siglas
p. 7
1 Introduo
p. 1
1.1
Formulao do Problema
. . . . . . . . . . . . . . . . . . . . . . . . . .
p. 1
1.2
Estrutura da monograa . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 2
2 Reviso bibliogrca
2.1
Processo KDD
p. 4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 4
2.1.1
Identicao do domnio da aplicao . . . . . . . . . . . . . . . .
p. 5
2.1.2
Seleo dos dados . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 5
2.1.3
Limpeza e Pr-processamento dos dados . . . . . . . . . . . . . .
p. 5
2.1.4
Transformao dos dados . . . . . . . . . . . . . . . . . . . . . .
p. 6
2.1.5
Minerao de dados . . . . . . . . . . . . . . . . . . . . . . . . .
p. 7
2.1.6
Interpretao e Avaliao dos padres . . . . . . . . . . . . . . . .
p. 7
2.1.7
Utilizao do conhecimento . . . . . . . . . . . . . . . . . . . . .
p. 7
2.2
Minerao de Dados
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 7
2.3
Clusterizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 9
2.3.1
Principais fases da clusterizao . . . . . . . . . . . . . . . . . . .
p. 9
2.3.2
Classicao das tcnicas de clusterizao . . . . . . . . . . . . .
p. 10
2.3.3
Tipos de dados e medidas de similaridade . . . . . . . . . . . . . .
p. 11
2.3.3.1
Atributos Contnuos . . . . . . . . . . . . . . . . . . . .
p. 12
2.3.3.2
Atributos Binrios . . . . . . . . . . . . . . . . . . . . .
p. 13
2.3.3.3
Atributos Nominais . . . . . . . . . . . . . . . . . . . .
p. 14
2.3.3.4
Atributos Ordinais . . . . . . . . . . . . . . . . . . . . .
p. 15
2.3.3.5
Atributos em escala no linear
. . . . . . . . . . . . . .
p. 15
2.3.3.6
Objetos formados por atributos de vrios tipos . . . . . .
p. 16
Algoritmo K -means . . . . . . . . . . . . . . . . . . . . . . . . .
p. 16
Regras de Associao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 17
2.4.1
Conceitos e Denies . . . . . . . . . . . . . . . . . . . . . . . .
p. 18
2.4.2
Algoritmo Apriori
p. 20
2.3.4
2.4
. . . . . . . . . . . . . . . . . . . . . . . . . .
3 Plataforma Lattes e Ferramentas
p. 23
3.1
Plataforma Lattes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 23
3.2
Estrutura do currculo Lattes . . . . . . . . . . . . . . . . . . . . . . . .
p. 23
3.3
Ferramenta de Minerao de Dados . . . . . . . . . . . . . . . . . . . . .
p. 24
3.4
Ferramenta de extrao de dados da plataforma Lattes . . . . . . . . . . .
p. 26
4 Estudo de Caso
p. 31
4.1
Caractersticas gerais do estudo . . . . . . . . . . . . . . . . . . . . . . .
p. 31
4.2
Clusterizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 31
4.3
Regras de associao . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 37
5 Concluso
p. 40
Referncias
p. 42
Lista de Figuras
1
Etapas do Processo KDD. . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 5
Principais fases da clusterizao.
. . . . . . . . . . . . . . . . . . . . . .
p. 9
Matriz de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 11
Matriz de dissimilaridade . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 12
Base de dados com transaes de clientes . . . . . . . . . . . . . . . . . .
p. 18
Tabela booleana de itens-transaes . . . . . . . . . . . . . . . . . . . . .
p. 18
Tabela de itens-transaes . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 18
Regra de associao . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 22
Tela de pr-processamento da ferramenta WEKA. . . . . . . . . . . . . .
p. 25
10
Exemplo de arquivo ARFF.
. . . . . . . . . . . . . . . . . . . . . . . . .
p. 25
11
Exemplo de resultados de clusterizao. . . . . . . . . . . . . . . . . . . .
p. 26
12
Exemplo de resultados de regras de associao. . . . . . . . . . . . . . . .
p. 27
13
Arquitetura da ferramenta de extrao. . . . . . . . . . . . . . . . . . . .
p. 29
14
Base de dados no formato ARFF. . . . . . . . . . . . . . . . . . . . . . .
p. 30
15
Experimento com 2 agrupamentos. . . . . . . . . . . . . . . . . . . . . .
p. 32
16
p. 33
17
p. 34
18
p. 35
19
Distribuio dos clusters de acordo com os departamentos. . . . . . . . . .
p. 36
20
Regras de associao que relacionam os atributos publicaes e orientaes.
p. 37
21
Regras de associao que relacionam os atributos departamento e orientaes.
p. 38
22
Regras de associao que relacionam os atributos departamento e publicaes.
p. 38
23
Regras de associao que relacionam os atributos departamento e publicaes-
ComDoi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
p. 38
Regras de associao que relacionam os atributos departamento e publicaes-
ComFator. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 38
25
Regras de associao que relacionam os atributos publicaes e peridicos.
p. 39
26
Regras de associao que relacionam os atributos publicaes e completoAnais.
p. 39
27
Regras de associao que relacionam os atributos publicaes e resumoAnais.
p. 39
Lista de Tabelas
1
Tabela de contingncia para atributos binrios . . . . . . . . . . . . . . .
p. 14
Tabela de Smbolos e Siglas

ARFF - Attribute-Relation File Format
CNPq - Conselho Nacional de Desenvolvimento Cientco e Tecnolgico
DOI - Digital Object Identier
FACEPE - Fundao de Amparo Cincia e Tecnologia do Estado de Pernambuco
FINEP - Financiadora de Estudos e Projetos
HTML - HyperText Markup Language
IC - Iniciao Cientca
ISSN - International Standard Serial Number
JCR - Journal Citation Reports
KDD - Knowledge Discovery in Databases
LHS - Left Hand Side
MYSQL - Banco de dados relacional que utiliza a Linguagem de Consulta Estruturada
(SQL)
PHP - Hypertext Preprocessor
POLI - Escola Politcnica de Pernambuco
RHS - Right Hand Side
TCC - Trabalho de Concluso de Curso
URL - Uniform Resource Locator
WEKA - Waikato Environment for Knowledge Analysis
1 Introduo
Atualmente, com a facilidade de armazenar dados, as empresas e organizaes possuem registros de suas atividades cada vez mais completos. Porm, poucas so as organizaes que
utilizam esses dados para transform-los em conhecimento til para a sua gesto. Ou seja, as
empresas e organizaes possuem grande quantidade de dados, mas no fazem processamentos e anlises desses dados, de forma que sejam produzidas informaes que possam auxiliar
nas suas tomadas de decises.
A informao est se tornando cada vez mais a principal matria-prima de grandes organizaes, por isso faz-se necessrio a aplicao de processos que acelerem a extrao de informaes de grandes bases de dados. Neste contexto, o processo KKD (Knowledge Discovery
in Databases ) pode ser utilizado para auxiliar a descoberta de conhecimento til em grandes
bases de dados [1].
Uma das principais etapas do processo KDD, a Minerao de Dados, consiste na aplicao
de algoritmos com a nalidade de extrair padres de comportamento em uma base de dados [2].
Algumas das mais importantes tarefas descritivas da Minerao de Dados so clusterizao
e regras de associao. Dada essa natureza, essas tarefas foram selecionadas para serem
aplicadas neste trabalho. As regras de associao demonstram o quanto a ocorrncia de um
conjunto de itens implica na ocorrncia de algum outro conjunto distinto de itens nos registros
de uma mesma base de dados [3]. J a clusterizao pode ser utilizada para agrupar os dados
de acordo com uma medida de similaridade pr-denida [4], [5], [6].
1.1 Formulao do Problema

Atualmente, existe uma diculdade enorme nas universidades brasileiras para aquisio de
dados sobre a produo cientca do seu corpo docente. Entretanto, a maior parte destes dados
pode ser encontrada na plataforma Lattes, que um sistema de informao desenvolvido pelo
CNPq (Conselho Nacional de Desenvolvimento Cientco e Tecnolgico) para auxiliar a gesto
1.2 Estrutura da monograa
de cincia, tecnologia e inovao no Brasil [7]. Sendo, portanto, uma rica fonte de informaes
sobre a produo cientca, tecnolgica e bibliogrca dos pesquisadores do Brasil.
A utilizao de tcnicas de Minerao de Dados [8] pode auxiliar na extrao de informaes importantes desta plataforma e, consequentemente, guiar melhores investimentos na
rea de Cincia & Tecnologia das universidades. Porm, a determinao de padres que so
realmente teis, ainda requer uma grande interao com analistas humanos, o que torna o
processo de extrao do conhecimento uma tarefa no trivial.
Este trabalho visou estudar os conceitos e tcnicas da Minerao de Dados e aplicar o
conhecimento adquirido para descobrir informaes no explcitas nos currculos Lattes dos
professores da Escola Politcnica de Pernambuco - POLI. Este trabalho prope a utilizao
do WEKA (Waikato Environment for Knowledge Analysis ), que um software livre com
implementaes de diversas tcnicas de Minerao de Dados, para auxiliar na extrao do
conhecimento [9]. Especicamente, este trabalho se concentra em:
Selecionar dados disponveis na plataforma Lattes referentes produo cientca de

professores da POLI.
Projetar e desenvolver uma ferramenta para extrair os dados selecionados da plataforma

Lattes automaticamente;
Selecionar tcnicas de Minerao de Dados para serem aplicadas aos dados obtidos;
Utilizar o WEKA para aplicar as tcnicas selecionadas;
Analisar e organizar as informaes obtidas, de forma que o conhecimento gerado possa
ser utilizado por gestores da instituio.

No captulo 2, apresentada uma reviso bibliogrca que contempla os principais conceitos
necessrios compreenso deste trabalho.
No captulo 3, so apresentadas a plataforma Lattes, a ferramenta desenvolvida para
extrao de dados a partir da plataforma Lattes e a ferramenta de Minerao de Dados
(WEKA).
No captulo 4, so descritos o estudo de caso foi realizado e os resultados da aplicao
dos algoritmos de minerao de dados.
O captulo 5 contm as concluses e diculdades encontradas. Alm disso, neste captulo

so sugeridos trabalhos futuros.
2 Reviso bibliogrca
Neste captulo so apresentados conceitos e denies que so necessrios compreenso deste

trabalho. Na seo 2.1, so apresentadas as etapas do processo KDD. A seguir, na seo 2.2,
apresentado o conceito de Minerao de Dados, bem como suas principais tarefas. Na seo
2.3, so apresentadas as principais fases da clusterizao, como pr-processar os diferentes tipos
de dados para a clusterizao e o algoritmo Kmeans. Por m, na seo 2.4, so apresentados
os principais conceitos acerca de regras de associao e o algoritmo Apriori.
2.1
Processo KDD
Historicamente, encontrar padres em dados conhecido por diferentes nomes em diferentes

comunidades (por exemplo, extrao de conhecimento, descoberta de informao, arqueologia
de dados, processamento de padres de dados e Minerao de Dados). O termo Minerao
de Dados muitas vezes utilizado em comunidades de estatsticos, pesquisadores de banco
de dados, e mais recentemente por gerentes de sistemas de informao. Mas segundo [2]),
o termo KDD (knowledge-discovery in databases ) referencia o processo global de descobrir
conhecimento til em grandes bases de dados, sendo a Minerao de Dados um passo particular
desse processo que consiste na execuo de algoritmos de reconhecimento padres em base
de dados.
KDD pode ser denido como [1]: O processo no trivial de identicao de padres
vlidos, inovadores, potencialmente teis e principalmente compreensveis em bases de dados.
O processo KDD interativo e iterativo, envolvendo numerosos passos com muitas decises
tomadas pelo analista. Nas prximas sees, so apresentados os passos bsicos que compem
esse processo, conforme uxograma ilustrado na gura 1.
2.1 Processo KDD
Figura 1: Etapas do Processo KDD.
2.1.1 Identicao do domnio da aplicao

Nesse passo realizado um estudo do domnio da aplicao para denir os objetivos e metas a
serem alcanados com o processo KDD. Esse passo importante, pois para que seja extrada
informao til dos dados, as pessoas envolvidas no processo KDD devem possuir algum grau
de conhecimento sobre a rea da aplicao.
2.1.2 Seleo dos dados

Os sistemas, normalmente, armazenam vrios atributos de um objeto, mas nem sempre todos
estes atributos so relevantes para a anlise em questo. Assim, faz-se necessrio uma criteriosa avaliao de quais atributos realmente agregam informaes ao conjunto de dados para
que esses venham a ser utilizados no processo KDD.
A qualidade dos dados armazenados muito importante, pois ela determina a qualidade dos
resultados obtidos, de forma diretamente proporcional. Porm, o processo KDD ainda muito
dependente da avaliao de analistas humanos e do seu conhecimento sobre a base de dados
pesquisada, pois caso um atributo que contenha informaes importantes seja desprezado
nesta fase o resultado poder no ser satisfatrio.
2.1.3 Limpeza e Pr-processamento dos dados

No mundo real os dados tendem a ser incompletos, ruidosos e inconsistentes, o que torna
necessria a aplicao de tcnicas para corrigir essas falhas. A seguir so apresentadas algumas
das atividades que podem ser realizadas na etapa de limpeza dos dados [10]:
Valores ausentes. Por vezes, os valores de alguns atributos no esto presentes nas
bases, para lidar com esse problema pode-se: ignorar os registros que possuem valores
ausentes; preencher os valores ausentes manualmente; usar um valor constante, usar o
valor mdio do atributo ou usar valores estatsticos para preencher os valores ausentes.
2.1 Processo KDD
Valores fora do padro (outliers). Para resolver esse tipo de problema pode-se utilizar
uma das seguintes tcnicas: agrupamento, que consiste no agrupamento dos valores
similares, facilitando a identicao e excluso de valores fora do padro; inspeo
humana e computador, que consiste em uma inspeo feita por pessoas e computadores
para identicar e excluir os valores fora do padro; e regresso, na qual os dados podem
ser ajustados por meio de funes de regresso.
Dados inconsistentes. Esses erros ocorrem normalmente porque o usurio entra com
um dado incorreto, mas pode ocorrer tambm redundncia de dados, ou seja, dados
que possuem o mesmo valor semntico, mas que foram inseridos com nomes diferentes.
Uma forma de resolver esse problema por meio da anlise de correlao, que consiste
na medida de relacionamento entre dois atributos.
2.1.4 Transformao dos dados

Por vezes necessrio realizar transformaes nos dados para que os algoritmos de minerao
possam ser executados, dentre as mais comuns esto:
Normalizao de atributos. Forma de harmonizar as escalas dos atributos em um pequeno intervalo especicado.
Padronizao de atributos. Atributos redundantes devem ser eliminados, utilizando a

anlise de correlao para mapear mltiplos atributos para uma simples entidade, por
exemplo.
Reduo dos dados.
Agregao. Agrega e sumariza os dados. Por exemplo, os dados de vendas dirias

podem ser agregados de forma a calcular os montantes mensais e anuais.
Compresso de dados. Mecanismos de codicao so usados para reduzir o tamanho

do conjunto de dados.
Reduo da dimensionalidade. Eliminao de atributos irrelevantes tcnica de

minerao aplicada.
Reduo numrica. Diminuir o nmero de instncias, por exemplo.

Projeo de dados. Criao de novos atributos julgados relevantes a partir de outros
atributos existentes.
2.2 Minerao de Dados
2.1.5 Minerao de dados

Esse o passo onde os padres so descobertos por meio de algoritmos especcos que so
aplicados vrias vezes at que sejam extradas informaes teis dos dados. Por ser um dos
passos mais importantes do processo KDD, este passo descrito mais detalhadamente na
seo 2.2.
2.1.6 Interpretao e Avaliao dos padres

Os resultados obtidos pelos algoritmos de minerao devem ser avaliados por analistas para
que sejam julgados como teis ou no. Os padres que forem considerados teis devem ser
interpretados de forma que se tornem compreensveis para os usurios nais do sistema.
O processo KDD considerado iterativo, pois pode ser necessria sua execuo por vrias
vezes at que, por meio da repetio de qualquer um dos passos anteriores, se obtenha resultados satisfatrios [1].
2.1.7 Utilizao do conhecimento

Nesse passo, o conhecimento extrado consolidado sendo incorporado a um sistema, utilizado
diretamente pelo usurio nal ou, simplesmente, documentado e relatado s pessoas interessadas. Os resultados dos passos anteriores devem ainda ser analisados para que possveis
conitos entre o conhecimento existente e o conhecimento adquirido sejam solucionados [1].
2.2
Minerao de Dados
Minerao de Dados um dos principais passos do processo KDD, que consiste na aplicao de
algoritmos com a nalidade de extrair padres de comportamento em uma base de dados [1].
Essa uma rea de pesquisa multidisciplinar, que inclui inteligncia computacional, matemtica
(estatstica) e banco de dados. Um dos grandes desaos da Minerao de Dados propor
algoritmos que sejam capazes de lidar com escalabilidade e alta dimensionalidade dos dados,
ou seja, trabalhar com grandes quantidades de dados.
Segundo [1], o processo de Minerao de Dados possui dois objetivos principais: predio,
onde a ideia prever o comportamento futuro de algumas variveis da base de dados; e
descrio, onde a ideia identicar padres que representem a distribuio dos itens de tal
forma que esses padres sejam passveis de interpretao.
2.2 Minerao de Dados
importante diferenciar o que uma tarefa e o que uma tcnica de Minerao de

Dados. Uma tarefa est relacionada a o que se pretende buscar nos dados, ou seja, que
tipo de padres deseja-se encontrar. J uma tcnica, est relacionada a como encontrar os
padres de interesse. Por exemplo, para o caso de um gasto no carto de crdito de um cliente
acima do normal, para este caso pode-se denir uma tarefa, que seria deteco de desvios, e
uma tcnica para resolver o problema, que seria redes neurais, por exemplo [8]. A seguir, so
apresentadas as principais tarefas da Minerao de Dados, de acordo com o proposto em [1]:
Classicao - uma tarefa preditiva, que consiste em determinar uma funo que mapeie
cada item de uma base dados a uma das classes previamente denidas. Um exemplo de
classicao identicao de objetos de interesse em grandes bases de imagens.
Regresso - uma tarefa preditiva, cujo objetivo estimar o valor de uma varivel com
base nos valores de outras variveis. Alguns dos exemplos de regresso so: prever o
PIB de um pas; estimar a probabilidade de um paciente sobreviver, dados os resultados
de um conjunto de exames; e prever sries temporais.
Deteco de desvios/anomalias - uma tarefa preditiva, cujo objetivo detectar itens

que possuam caractersticas signicativamente diferentes do comportamento normal do
restante dos dados, como por exemplo deteco de fraudes em cartes de crdito.
Sumarizao - uma tarefa descritiva, que consiste em denir um conjunto mnimo de

caractersticas que seja capaz de identicar um subconjunto de objetos. As tcnicas de
sumarizao so comumente aplicadas para anlise exploratria de dados e gerao de
relatrios automatizados.
Modelo de Dependncia - descreve dependncias signicativas entre os atributos. Esses

modelos existem em dois nveis: estruturado, que especica (geralmente em forma de
grco) quais variveis so localmente dependentes; e quantitativo, que especica o
grau de dependncia usando alguma escala numrica.
Anlise de Sries Temporais - modela caractersticas sequenciais, como dados que possuem dependncias no tempo. O objetivo modelar os estados do processo de gerao
da sequncia, extraindo e relatando os desvios e tendncias no tempo.
As tarefas de clusterizao e regra de associao, por serem as escolhidas para aplicao
no estudo de caso deste trabalho, so descritas mais detalhadamente nas sees 2.3 e 2.4,
respectivamente.
2.3 Clusterizao
Figura 2: Principais fases da clusterizao.
2.3
A
Clusterizao
clusterizao, tambm conhecida como anlise de cluster, uma tarefa descritiva, cujo
objetivo encontrar grupos de objetos, tais que, objetos pertencentes a um grupo sejam
similares entre si e diferentes de objetos que pertencem a outro grupo [4], [5], [6].
A tarefa de classicao pode ser dividida em classicao supervisionada e classicao
no supervisionada. Em classicao supervisionada, dada uma coleo de objetos e suas
classes, o problema classicar um novo objeto para o qual a classe no conhecida. Normalmente, os objetos classicados so divididos em um conjunto que usado para aprender
a descrio da classe (treinamento) e outro que usado para testar a informao aprendida.
No caso da clusterizao (classicao no supervisionada), as classes no so previamente
conhecidas, de forma que, o problema se torna classicar objetos por meio de alguma medida
de similaridade de forma que os grupos tenham um signicado relevante.
2.3.1 Principais fases da clusterizao

De acordo com [11], a atividade de clusterizao envolve os seguintes passos (gura 2):
1. Seleo ou extrao de atributos. Seleo de atributos o processo de identicao
de atributos distintos de um conjunto de atributos candidatos, enquanto a extrao
de atributos por meio de transformaes atributos gera novos atributos a partir dos
originais.
2. Medida de similaridade. A medida de similaridade determina o quanto um objeto similar
a outro, possibilitando assim, a identicao de qual cluster o objeto deve pertencer.
Essa medida deve ser especca para o domnio sob o qual est sendo a aplicada a
2.3 Clusterizao
10
clusterizao. Na seo 2.3.3 so apresentadas algumas das medidas que so comumente

usadas.
3. Algoritmo de clusterizao. Atualmente existe uma grande variedade de algoritmos
de clusterizao, mas no h um algoritmo que possa ser usado para resolver todo e
qualquer problema. Dessa forma, fundamental analisar o problema para selecionar
ou desenvolver um algoritmo adequado. Na seo 2.3.2, so apresentados os tipos de
algoritmos de clusterizao.
4. Validao dos clusters. Todo algoritmo de clusterizao consegue gerar parties, independente de essas possurem signicado semntico. E, alm disso, algoritmos diferentes
normalmente agrupam os objetos de forma diferente. Por isso, necessrio que os
resultados obtidos pelos algoritmos sejam validados por meio de critrios de avaliao
ecientes. H trs tipos de critrios de validao: os ndices externos, nos quais, os resultados encontrados pelos algoritmos so comparados com uma estrutura pr-estabelecida;
os ndices internos, nos quais, os resultados obtidos pelos algoritmos so examinados a
m de determinar se eles so intrinsecamente apropriados para os dados de entrada; e
os ndices relativos, que comparam os resultados obtidos por algoritmos diferentes para
decidir qual melhor representa as caractersticas dos dados.
5. Interpretao dos resultados. Por m, o resultado dos algoritmos de clusterizao deve
ser interpretado por especialistas para que sejam atribudos signicados aos clusters de
forma que o usurio possa compreend-los.
Como visto na gura 2, a anlise de cluster apresenta um uxo para realimentao, pois
por vezes so necessrias execues com algoritmos de clusterizao diferentes at que se
obtenham bons resultados.
2.3.2 Classicao das tcnicas de clusterizao

De acordo com [4], [10], os principais tipos de tcnicas de clusterizao podem ser classicados
em:
Tcnicas Particionais : o conjunto de clusters no possui interseco de modo que cada

objeto pertence a exatamente um cluster.
Tcnicas Hierrquicas : o conjunto de clusters est organizado e aninhado como uma

rvore.
2.3 Clusterizao
11
Tcnicas baseadas em densidade : so tcnicas baseadas na noo de densidade, ou

seja, um objeto pertence a uma regio densa se na sua vizinhana existem pelo menos
L objetos, onde L um limiar denido pelo usurio. Nessas tcnicas, diferentemente

das outras, o nmero de clusters no precisa ser especicado.
2.3.3 Tipos de dados e medidas de similaridade

Nesta seo, so apresentados os tipos de dados que normalmente ocorrem em clusterizao,
como pr-process-los para anlise e algumas das medidas de similaridade mais usadas [10].
Supondo que um conjunto de dados para ser clusterizado contenha n objetos, os quais
podem representar pessoas, casas, documentos, pases e outros. Algoritmos de clusterizao
tipicamente operam sobre as seguintes estruturas de dados:
Matriz de dados (ou objetos por atributos) - esta estrutura representa n objetos, tais
como pessoas, com p atributos, tais como altura, peso, idade, sexo e outros. A estrutura
est na forma de uma tabela relacional, ou matriz n p (n objetos p atributos) como
mostrado na gura 3.
Figura 3: Matriz de dados.
Matriz de dissimilaridade (ou objetos por objetos) - esta estrutura armazena uma coleo
de proximidades que so avaliadas para todos os pares de n objetos. Ela muitas vezes
representada por uma matriz n n, conforme pode ser observado na gura 4, na qual
d(i, j) a diferena ou dissimilaridade medida entre os objetos i e j .

.
2.3 Clusterizao
12
Figura 4: Matriz de dissimilaridade.
2.3.3.1
Atributos Contnuos
Atributos contnuos so atributos que podem ser relacionados a funes matemticas contnuas. Exemplos desse tipo de atributo incluem peso, altura, temperatura ambiente e outros.
As medidas de dissimilaridade mais usadas para esse tipo de atributo so as distncias Euclidiana, Manhattan e Minkowski [10].
A unidade de medida usada pode afetar a clusterizao, para que isso no ocorra os dados
devem ser normalizados, ou seja, dar a todos os atributos igual peso. Porm, h casos em
que pode ser til dar mais importncia a um determinado conjunto de dados, por exemplo,
quando clusterizando candidatos a jogadores de basquete, pode-se dar mais peso ao atributo
altura.
Uma forma de normalizar medidas convertendo as medidas originais em atributos sem
unidade. Dados os valores medidos para um atributo f , a normalizao pode ser feita da
seguinte maneira:
Calcular o desvio absoluto mdio, sf :

sf =
1
(| x1f mf | + | x2f mf | + + | xnf mf |),
n
(2.1)
no qual x1f , , xnf so n medidas de f , e mf o valor mdio de f , ou seja,
mf =
1
(x1f + x2f + + xnf ).
n
(2.2)
Calcular a medida normalizada (escore-z ):

zif =
xif mf
.
sf
(2.3)
H outras medidas de disperso robustas, tal como desvio absoluto mediano, mas a vantagem de usar desvio absoluto mdio a facilidade de detectar outliers, pois os escores-z de
2.3 Clusterizao
13
outliers no se tornam muito pequenos.

Aps a normalizao (caso seja necessria), deve ser estabelecida uma medida de dissimilaridade. Uma das medidas mais usadas a distncia Euclidiana, que pode ser denida
como:
d(i, j) =
q
(| xi1 xj1 |2 + | xi2 xj2 |2 + + | xip xjp |2 ),
(2.4)
na qual i = (xi1 , xi2 , ..., xip ) e j = (xj1 , xj2 , ..., xjp ) so dois objetos de dados p-dimensional.
Outra mtrica bem conhecida a distancia Manhattan, que pode ser dena como:
d(i, j) =| xi1 xj1 | + | xi2 xj2 | + + | xip xjp | .
(2.5)
A distncia Minkowski uma generalizao das distncias Euclidiana e Manhattan:
d(i, j) = (| xi1 xj1 |q + | xi2 xj2 |q + + | xip xjp |q )1/q ,
(2.6)
na qual q um inteiro positivo. A distncia Minkowski representa a distncia Manhattan

quando q = 1 e a distncia Euclidiana quando q = 2.
Se a cada atributo atribudo um peso de acordo com sua importncia, a distncia
Euclidiana ponderada, por exemplo, pode ser calculada da seguinte maneira:
q
d(i, j) = w1 | xi1 xj1 |q +w2 | xi2 xj2 |q + + | xip xjp |2 .
(2.7)
O clculo de medidas levando em considerao pesos pode ser realizada utilizando as

demais distncias tambm, de forma semelhante a mostrada para distancia Euclidiana na
equao 2.7.
2.3.3.2
Atributos Binrios
Uma abordagem para medir a dissimilaridade entre dois atributos binrios calcular a matriz
de dissimilaridade dos dados. Se todos os atributos binrios possuem os mesmos pesos, tem-se
a tabela 1, na qual a o nmero de atributos iguais a 1 para ambos os objetos i e j , b o
nmero de atributos que igual a 1 para i e igual 0 para j , c o nmero de atributos que
igual 0 para i e igual 1 para j , d o nmero de atributos iguais a 0 para ambos os objetos i
e j , e p o nmero total de atributos (p = a + b + c + d).
Um atributo binrio pode ser simtrico ou assimtrico. Ele simtrico quando os dois
estados possuem o mesmo valor e peso, ou seja, no existe preferncia para atribuir 0 ou 1
2.3 Clusterizao
14
Tabela 1: Tabela de contingncia para atributos binrios.

objeto j
1
objeto i
1
0
Soma
a
b
c
d
a+c b+d
Soma
a+b
c+d
p
ao atributo. Um exemplo o atributo sexo. A similaridade baseada em atributos binrios

simtricos chamada similaridade invariante, pois o resultado no muda quando alguns ou
todos os atributos binrios possuem valores diferentes. Para similaridades invariantes, o mais
conhecido coeciente o coeciente de casamento simples (simple matching coecient ), que
pode ser denido como:
d(i, j) =
b+c
.
a+b+c+d
(2.8)
Um atributo binrio assimtrico se os estados no so igualmente importantes, tal como

o resultado positivo ou negativo de um teste para determinar a presena de uma dada doena.
Dados dois atributos binrios assimtricos, a ocorrncia de dois 1s (casamento positivo)
considerado mais importante que dois 0s (casamento negativo). A similaridade baseada em
atributos binrios assimtricos chamada similaridade no invariante. Para similaridades no
invariantes, o mais conhecido coeciente o Coeciente de Jaccard, no qual o nmero de
casamentos negativos, d, no considerado importante, portanto pode ser ignorado no clculo
do coeciente. O Coeciente de Jaccard pode ser calculado da seguinte maneira:
d(i, j) =
2.3.3.3
b+c
.
a+b+c
(2.9)
Atributos Nominais
Um atributo nominal uma generalizao de atributos binrios, na qual ele pode possuir mais
do que dois estados. Por exemplo, um atributo que mapeia a cor dos olhos de uma pessoa
pode assumir os valores: verde, castanho e azul.
Os estados um atributo nominal podem ser denotados por letras, smbolos ou um conjunto
de inteiros, mas os inteiros no representam nenhuma relao de ordem, apenas servem para
manipular os dados.
A dissimilaridade entre dois objetos i e j pode ser calculada usando a abordagem de
casamento simples (simple matching ) como mostrado a seguir:
d(i, j) =
pm
,
p
(2.10)
2.3 Clusterizao
15
na qual m o nmero de casamentos (ou seja, nmero de atributos nos quais i e j so iguais)
e p o nmero total de atributos.
Atributos nominais podem ser codicados como atributos binrios assimtricos por meio da
criao de um atributo binrio para cada um dos estados que o atributo nominal possua. Para
cada atributo nominal do objeto que pertena a um estado, o atributo binrio correspondente
a este estado mapeado para 1 enquanto o restante dos atributos binrios so mapeados para
0. Desta maneira os coecientes de clculo de dissimilaridade apresentados para atributos

binrios podem ser utilizados.
2.3.3.4
Atributos Ordinais
Um atributo ordinal discreto lembra um atributo nominal, exceto pelo fato que os M estados
de um atributo ordinal esto ordenados numa sequncia signicativa. Um exemplo de atributo
ordinal um atributo cujos valores esto na escala Likert, que uma escala muito usada em
pesquisas de opinio, ou seja, os atributos podem assumir valores como: muito bom, bom,
razovel, ruim e muito ruim. Atributos ordinais podem ser obtidos pela discretizao de valores
de atributos contnuos por meio da diviso da faixa de valores em um nmero nito de classes.
Supondo que f um conjunto de atributos ordinais descrevendo n objetos. O clculo da
dissimilaridade de f envolve os seguintes passos:
O valor de f para o i-simo objeto xif , f possui Mf estados ordenados, representando

o ranking 1, ..., Mf . Substitui-se cada xif por seu elemento correspondente no ranking,
rif pertence 1, ..., Mf .

Como cada atributo ordinal pode ter um nmero diferente de estados, necessrio
mapear a faixa de cada atributo em [0 1] para que cada atributo possua o mesmo
peso. Isso pode ser feito substituindo o valor de rif do i-simo objeto no f -simo
atributo por:
zif =
rif 1
.
Mf 1
(2.11)
A dissimilaridade pode ser calculada usando qualquer uma das formas apresentadas para
atributos contnuos, usando zif para representar o valor do atributo f para o objeto i.
2.3.3.5
Atributos em escala no linear
Atributos em escala no linear so atributos que expressam uma medida em uma escala no
linear, como uma escala exponencial, por exemplo. H trs maneiras de calcular dissimilaridade
2.3 Clusterizao
16
para objetos que possuem esse tipo de atributo:
Tratar atributos em escala no linear como atributos em escala linear. Porm usualmente
essa no um boa escolha uma vez que a escala pode ser distorcida.
Aplicar transformaes logartmicas a um atributo em escala no linear f tendo valor

xif para o objeto i por meio da frmula yif = log(xif ). Os valores de yif podem ser
tratados como atributos em escala linear.
Tratar xif como atributo ordinal e sua posio no raking como atributo contnuo.
2.3.3.6
Objetos formados por atributos de vrios tipos
muito comum que objetos sejam descritos por atributos de vrios tipos. Surge, portanto, a
necessidade de uma forma de medir dissimilaridade para tais objetos.
Uma abordagem juntar todos os atributos de um determinado tipo e realizar a clusterizao para cada tipo de atributo. Outra abordagem mapear todos os atributos para o
intervalo [0; 1] e usar medidas como distncia Euclidiana. H vrias outras abordagens, porm
uma das mais poderosas [12]:
Pp
d(i, j) =
f f
f =1 , ij dij
,
Pp
f
f =1 ij
(2.12)
f
= 0 se (1) xif ou xjf est faltando (quando o valor do atributo f est
na qual o indicador ij
faltando para o objeto i ou j , por exemplo), ou (2) xif = xjf = 0 e o atributo f binrio
f
assimtrico; caso contrrio, ij
= 1. A contribuio do atributo f para dissimilaridade entre
os objetos i e j , dfij , calculada d seguinte maneira:

1. Se f binrio ou nominal: dfij = 0, se xif = xf i ; caso contrrio, dfij = 1.
2. Se f contnuo: dfij =
|xif xjf |
,
maxh (xhf )minh (xhf )
no qual h executa sobre todos os objetos
que possuem valor para o atributo f .

3. Se f ordinal ou no escalar: calcula-se o ranking rif e zif =
rif 1
,
Mf 1
e trata zif como
atributo contnuo.
2.3.4 Algoritmo K -means

O algoritmo k-means um algoritmo particional (os clusters so disjuntos), exclusivo (cada
objeto pertence a um nico cluster ) e baseado em prottipos (cada objeto do cluster est
2.4 Regras de Associao
17
mais prximo ao prottipo que dene o cluster do que dos prottipos de quaisquer outros
clusters ). O seu funcionamento pode ser descrito pelos seguintes passos [11]:
1. Atribuir valores iniciais para os centrides (prottipos). Nesse passo, so escolhidos
os k objetos dentro do banco de dados que sero utilizados como centros dos clusters
(centrides). Essa escolha pode ser feita de diversas maneiras, dentre elas: selecionar
as k primeiras entradas; ou selecionar k entradas aleatoriamente.
2. Associar objetos aos centrides. Nesse passo, cada objeto associado, de acordo com
a medida de similaridade, ao centride mais prximo.
3. Recalcular centrides. Nesse passo, para cada cluster recalculado o calor do centride
a partir da mdia dos objetos pertencentes ao cluster.
4. Iterao. O algoritmo repete os passos 2 e 3 at que no haja mudana nos centrides
ou at que relativamente ocorram poucas mudanas nos centrides.
Para avaliao dos clusters criados pelo algoritmo k -means a medida mais comumente
usada a soma dos erros quadrados (Sum of Square Error - SSE ), que pode ser calculada de
acordo com a seguinte equao:
SSE =
K X
X
dist2 (mi , x),
(2.13)
i=1 xCi
na qual, x representa um objeto pertencente ao cluster Ci , mi representa o centride do
cluster i e k o nmero de clusters. Uma forma de reduzir o SSE aumentando o nmero

de clusters.

A tcnica de regras de associao uma das tarefas descritivas da Minerao de Dados, que
demonstra o quanto a ocorrncia de um conjunto de itens implica na ocorrncia de algum outro
conjunto distinto de itens nos registros de uma mesma base de dados [3]. Desse modo, o objetivo das regras de associao encontrar itens que ocorrem de forma simultnea e frequente
em transaes de grandes bases de dados, facilitando a compreenso do comportamento dos
dados.
A aplicao mais comum de regras de associao a anlise de transaes de compras,
por isso, ao longo dessa seo ser utilizado um exemplo de uma pequena base de dados
18
que armazena compras realizadas por clientes de um supermercado (gura 5). Como pode
ser observado na gura 5, cada transao da base de dados armazena a relao de produtos
adquiridos por um cliente especco.
Figura 5: Base de dados com transaes de clientes.
2.4.1 Conceitos e Denies

Nessa seo so apresentados conceitos e denies, que so necessrios compreenso do
processo de minerao de regras de associao [13].
O pr-requisito para que a tcnica de regras de associao possa ser aplicada que a
base de dados esteja no formato de uma
ou a uma
tabela booleana de itens-transaes (gura 6)
tabela de itens-transaes (gura 7). A tabela de itens-transaes um caso
particular da tabela booleana de itens-transaes, onde apenas os itens que possuem valor um
na tabela booleana de itens-transaes aparecem na tabela de itens-transaes. Dessa forma,
quando os dados no esto nos formatos apresentados, deve ser realizado o pr-processamento
dos dados.
Figura 6: Tabela booleana de itens-transaes.
Figura 7: Tabela de itens-transaes.
Uma regra de associao pode ser representada como uma implicao na forma LHS
RHS , onde LHS e RHS so conjuntos disjuntos de itens que representam respectivamente,
19
o lado esquerdo (Left Hand Side ) e o lado direito (Right Hand Side ) da regra. Um exemplo
de regra que poderia ser extrada da base de dados da gura 5 {caf, leite} {po}, cujo
signicado que clientes que compraram caf e leite tendem a comprar po tambm.
Ao conjunto de atributos ou itens ordenados lexicogracamente d-se o nome de itemset .
Um itemset com k elementos costuma ser referenciado como k-itemset . Um exemplo de
2-itemset {caf, leite}. O
suporte de um itemset Z , sup(Z), indica a porcentagem de
transaes da base de dados que contm os itens de Z , ou seja,
sup(Z) =
n(Z)
100,
N
(2.14)
onde n(Z) o nmero de transaes nas quais Z ocorre e N o nmero total de transaes
da base de dados. Por exemplo, o suporte do itemset {caf,leite} de 60% para a base de
dados mostrada na gura 5.
J o suporte de uma regra LHS RHS indica a frequncia com que LHS RHS
ocorre no conjunto de dados, ou seja,
sup(LHS RHS) = sup(LHS RHS) =
n(LHS RHS)
100,
N
(2.15)
onde n(LHS RHS) o nmero de transaes nas quais LHS e RHS ocorrem juntas e N
o nmero total de transaes da base de dados. No exemplo 1, mostrado como calcular o
suporte da regra {caf, leite} {po} para a base de dados apresentada na gura 5.
Exemplo 1 sup({caf e, leite} {pao}) =

A
n({caf e,leite}{p
ao})
5
100 =
3
5
100 = 60%.
conana de uma regra LHS RHS , conf (LHS RHS), representa, dentre as
transaes que contm LHS , a porcentagem de transaes que tambm contm RHS , ou
seja,
conf (LHS RHS) = sup(LHS RHS)/sup(LHS) 100.
(2.16)
No exemplo 2, calculada a conana da regra {caf, leite} {po} para a base apresentada na gura 5.
Exemplo 2 conf (caf e, leite pao) =
sup(caf e,leitep
ao)
sup(caf e,leite)
100 =
60
60
100 = 100%.
Um k -itemset dito frequente quando o seu suporte maior ou igual ao suporte mnimo
denido pelo usurio.
De acordo com [3], a tcnica de regras de associao pode ser descrita formalmente da
seguinte maneira:
20
Seja I = {i1 , i2 , ..., in } o conjunto de itens que compem uma base de dados D e T
o conjunto de transaes da mesma base de dados, cada transao ti T composta por
um conjunto de itens tal que ti I . A regra de associao uma implicao na forma
LHS RHS , onde LHS I , RHS I e LHS RHS = .

Dessa forma, o processo de obteno de regras de associao pode ser dividido em duas
etapas:
1. Determinar todos os k -itemsets frequentes.
2. Para cada k -itemset encontrado na etapa anterior, com k >= 2, gerar regras de associao (permutaes de subconjuntos) que possuam conana maior ou igual conana
mnima especicada pelo usurio.
Para determinar os k -itemsets freqentes o algoritmo comumente utilizado o Apriori,
que ser apresentado na prxima seo.
2.4.2 Algoritmo Apriori

O algoritmo Apriori, desenvolvido por [3], capaz de encontrar todos os itemsets frequentes
em uma base de dados. Esse algoritmo considera a seguinte propriedade para diminuir o espao
de busca:
Propriedade 1 Se um itemset Z no frequente ento para todo itemset A, Z A no ser

frequente.
Inicialmente o algoritmo conta a ocorrncia dos itens, determinando o 1-itemsets frequentes que so armazenados em L1 , onde L1 representa o conjunto de 1-itemsets frequentes.
Depois de forma iterativa, para encontrar o Lk , o algoritmo constri um conjunto de k -itemsets
candidatos, Ck , atravs de um join entre os elementos do Lk1 . A seguir, ele poda Ck usando
a propriedade 1 e calcula o suporte dos candidatos que no foram podados. E por m, so
identicados os k -itemsets frequentes, que so armazenados em Lk . O conjunto que contm
todos os itemsets frequentes formado pela unio dos conjuntos Lk de k -itemsets frequentes.
A seguir apresentada, no exemplo 3, a utilizao do algoritmo Apriori para obteno de
regras de associao.
Exemplo 3 Aplicao do algoritmo Apriori para obteno de regras de associao na base de

dados da gura 5, considerando o suporte mnimo 50% e a conana mnima 90%.
21
1. Determinando todos os k -itensets frequentes;

- Gera os candidatos a 1-itensets frequentes, C1 :
3
5
4
5
sup({leite}) =
sup({caf e}) =
4
5
sup({p
ao}) =
1
5
sup({manteiga}) =
2
5
sup({ovos}) =
2
5
sup({arroz}) =
100 = 80%
100 = 80%
sup({biscoito}) =
sup({queijo}) =
100 = 60%
100 = 20%
2
5
100 = 40%
100 = 40%
100 = 40%
2
5
sup({f eij
ao}) =
100 = 40%
2
5
100 = 40%
Logo, L1 = {{caf e}, {leite}, {pao}}.

sup({caf e, leite}) =
sup({caf e, p
ao}) =
sup({leite, p
ao}) =
3
5
3
5
3
5
100 = 60%
100 = 60%
100 = 60%
Logo, L2 = {{caf e, leite}, {caf e, pao}, {leite, pao}}.

sup({caf e, leite, p
ao}) =
3
5
100 = 60%
Logo, L3 = {{caf e, leite, pao}}.

Como L3 s possui um itemset o algoritmo para de iterar, pois no possvel gerar
candidatos a 4-itemsets.
2. Gerando regras de associao
Para gerar as regras deve-se permutar os k -itemsets frequentes (k>=2) e selecionar
as regras que possuem conana maior ou igual a conana mnima especicada pelo
usurio. As regras de associao que obedecem as especicaes so as que esto em
negrito na tabela da gura 8.
22
Figura 8: Regra de Associao.
23
3 Plataforma Lattes e Ferramentas
Neste captulo, so apresentadas a plataforma Lattes e algumas ferramentas que foram utilizadas na realizao deste trabalho. A seo 3.1 apresenta a plataforma Lattes e seus componentes. A seguir, na seo 3.2, apresentada a estrutura do sistema de currculos Lattes.
Na seo 3.3, apresentada a ferramenta utilizada apra realizar as tarefas de Minerao de
Dados. Por m, na seo 3.4, apresentada uma ferramenta de extrao e estruturao dos
dados obtidos a partir da plataforma Lattes.
3.1 Plataforma Lattes

A Plataforma Lattes um sistema de informao desenvolvido pelo CNPq (Conselho Nacional
de Desenvolvimento Cientco e Tecnolgico) para auxiliar a gesto de cincia, tecnologia e
inovao no Brasil [14]. Essa foi lanada em 16 de agosto de 1999, com a verso inicial do
sistema de currculos Lattes.
A plataforma composta pela integrao de quatro sistemas distintos: currculo Lattes,
que um sistema de informao responsvel por registrar a vida curricular pregressa e atual
dos pesquisadores; diretrio de grupos de pesquisa, que um sistema responsvel por manter
informaes sobre os grupos de pesquisa existentes no pas; diretrio de instituies, cujo
objetivo armazenar informaes sobre os institutos de pesquisa, universidades e outros, que
demandam fomento ao CNPq; e sistema gerencial de fomento, cujo objetivo aumentar a
qualidade das atividades de fomento do CNPq.
3.2 Estrutura do currculo Lattes

O currculo Lattes est estruturado de forma hierrquica, os nveis mais altos da hierarquia
so:
Apresentao: mdulo inicial do sistema, composto por um resumo do currculo do
3.3 Ferramenta de Minerao de Dados
24
usurio e a data da ltima atualizao do currculo;
Dados Gerais: este mdulo agrupa dados de identicao, endereos, formao acadmica e complementar, atuao prossional, reas de atuao e outros;
Produo bibliogrca: concentra toda a produo bibliogrca tais como artigos

completos, livros, textos em jornais e outros;
Produo tcnica: agrupa informaes sobre a produo tcnica do pesquisador tais

como softwares, produtos, trabalhos tcnicos e outros;
Orientaes: mdulo destinado a todas as orientaes ou supervises (concludas ou

em andamento);
Projetos: neste mdulo so encontrados os projetos do pesquisador;
Eventos: contm informaes relacionadas a eventos que o pesquisador organizou ou

paticipou;
Bancas: contm informaes relacionadas a bancas e comisses julgadoras;
Citaes: reune indicadores de referncias de outros pesquisadores aos trabalhos publicados do pesquisador.

Para realizao das tarefas de Minerao de Dados neste trabalho foi utilizada uma ferramenta de cdigo aberto chamada WEKA (Waikato Environment for Knowledge Analysis ).
Essa ferramenta foi desenvolvida na Universidade de Waikato na Nova Zelndia e possui implementaes de vrios algoritmos de Minerao de Dados [9].
A interface grca do WEKA amigvel, porm importante destacar os principais elementos. A Figura 9 apresenta a tela de pr-processamento da ferramenta destacando os
principais elementos:
(a) Esse boto permite a seleo de bases de dados no formato ARFF (Attribute-Relation
File Format );
(b) Nessa rea podem ser selecionados algoritmos para pr-processar os dados (discretizar
atributos, por exemplo);
25
(c) Nessa rea so apresentados os atributos da base de dados;

(d) Apresenta informaes quantitativas e estatsticas sobre o atributo selecionado na
rea Atribute.
Figura 9: Tela de pr-processamento da ferramenta WEKA.
A ferramenta WEKA recebe como entrada arquivos no formato ARFF, que so compostos
por 3 elementos (Figura 10): (a) relation, que dene um nome para a relao estudada; (b)
atribute, onde so especicados os atributos que compem a base de dados; e (c) data, que
contempla os dados separados por vrgulas [15].
Figura 10: Exemplo de arquivo ARFF.
Neste trabalho so estudados clusterizao e regras de associao, por isso necessrio
3.4 Ferramenta de extrao de dados da plataforma Lattes
26
compreender como o WEKA apresenta os resultados dessas tarefas. A Figura 11 apresenta um

exemplo de resultados do WEKA para clusterizao, destacando-se os principais elementos:
(a) Apresenta os centrides de cada cluster e dos dados completos;

(b) Apresenta a distribuio dos objetos entre os clusters de acordo com o atributo
classe escolhido.
Figura 11: Exemplo de resultados de clusterizao.
A Figura 12 apresenta um exemplo de resultados gerados pelo WEKA quando a tarefa de

regras de associao realizada, destacando-se os principais elementos:
(a) As regras so ordenadas pela conana.

(b) Os valores depois de antecedentes e consequentes das regras representam o nmero
de suas respectivas ocorrncias.
3.4 Ferramenta de extrao de dados da plataforma

Lattes
As tcnicas de Minerao de Dados selecionadas para serem estudadas neste trabalho devem
ser aplicadas sobre dados estruturados, como na internet os dados esto na forma textual
27
Figura 12: Exemplo de resultados de regras de associao.
houve a necessidade da construo de uma ferramenta para extrao e estruturao dos dados
da Plataforma Lattes. Portanto, foi desenvolvida uma ferramenta que obtm os dados dos
currculos e transforma-os em um banco de dados. Nesta seo descrito o funcionamento
dessa ferramenta e a forma como os dados foram organizados aps a extrao.
A ferramenta foi desenvolvida utilizando PHP (Hypertext Preprocessor ) [16], que uma
linguagem de programao muito usada em pginas dinmicas da web, e o sistema de gerenciamento de banco de dados relacional MYSQL [17]. Os principais dados selecionados dos
currculos dos pesquisadores so:
id - Atributo que identica individualmente cada professor;

peridicos - Nmero de artigos completos publicados em peridicos;
periodicosComFator - nmero de artigos completos publicados em peridicos que possuem fator de impacto. O fator de impacto uma avaliao feita pela JCR (Journal
Citation Reports ) [18] para medir o desempenho de um jornal com relao a outros da
mesma rea;
livros - nmero de captulos de livro publicados;

jornais - nmero de textos em jornais de noticiais/revistas;
completoAnais - nmero de trabalhos completos publicados em anais de congressos;
resumoAnais - nmero de resumos publicados em anais de congresso;
expandidosAnais - nmero de resumos expandidos publicados em anais de congresso;
publicaesComDoi - nmero de publicaes que possuem DOI (Digital Object Identi-
er ), que permite localizar e acessar materiais na web - especialmente, publicaes em

peridicos e obras protegidas por copyright;
publicaes - atributo projetado a partir da soma de peridicos, livros, jornais, comple-
tosAnais, resumoAnais e expandidosAnais ;
28
oriMSC - nmero de orientaes de mestrado;

oriPHD - nmero de orientaes de doutorado;
oriESP - nmero de orientaes de especializao;
oriTCC - nmero de orientaes de trabalho de concluso de curso;
oriIC - nmero de orientaes de iniciao cientca;
oriOutras - nmero de outras orientaes;
orientacoes - atributo projetado a partir da soma de oriMSC, oriPHD, oriESP, oriTCC,
oriIC e oriOutras ;
bancaEX - nmero de participaes em bancas examinadoras;
bancaJUL - nmero de participaes em bancas julgadoras;
projetoCnpq - nmero de projetos nanciados pelo CNPQ;
projetoFacepe - nmero de projetos nanciados pela FACEPE(Fundao de Amparo
Cincia e Tecnologia do Estado de Pernambuco);
projetoFinep - nmero de projetos nanciados pelo FINEP(Financiadora de Estudos e

Projetos);
atvDirecao - nmero de atividades de direo;

atvEnsino - nmero de atividades de ensino;
atvProjeto - nmero de atividades de projeto;
atvPesquisa - nmero de atividades de pesquisa;
departamento - departamento ao qual o professor pertence (bsico, computao, civil,
eltrica, mecnica);
atualizao - nmero de dias decorridos desde a ltima atualizao.
29
A arquitetura da ferramenta composta por 3 componentes (gura 13):
Figura 13: Arquitetura da ferramenta de extrao.
Aquisio de currculo. A tarefa inicial realizada pela ferramenta a obteno do

contedo dos currculos Lattes dos professores pesquisadores da Escola Politcnica de
Pernambuco no formato HTML (HyperText Markup Language ) utilizando o endereo
eletrnico (URL - Uniform Resource Locator ) dos currculos.
Extrao de dados. As informaes necessrias criao da base de dados so extradas do texto HTML, por meio de funes PHP que reconhecem expresses regulares
(padres) em strings. O texto semi-estruturado em HTML facilitou o estabelecimento
dos padres, uma vez que as tags puderam ser utilizadas como delimitadores para identicao dos dados de interesse.
Estruturao dos dados. Por m, os dados extrados so armazenados em um arquivo

ARFF (gura 14).
Figura 14: Base de dados no formato ARFF.
30
31
4 Estudo de Caso
Neste captulo apresentado como foram realizadas as tarefas de clusterizao e regras de

associao, bem como a anlise dos resultados provenientes dessas tarefas. Na seo 4.1, so
apresentadas caractersticas gerais sobre o estudo. A seguir, na seo 4.2, so apresentados
os experimentos de clusterizao. E por m, na seo 4.3, so apresentados os experimentos
realizados usando regras de associao.
4.1 Caractersticas gerais do estudo

Os experimentos foram realizados com 129 professores, do quadro efetivo da Escola Politcnica
de Pernambuco (POLI) e esto divididos em 5 grupos: bsico, mecnica, eltrica, civil e
computao. Os professores esto distribudos da seguinte maneira: 34 no bsico, 21 em
mecnica, 31 em eltrica, 30 em civil e 13 em computao.
Os nomes e cursos dos professores foram obtidos junto ao setor de recursos humanos da
POLI, de forma que a partir dos nomes dos professores, os endereos eletrnicos dos seus
currculos Lattes puderam ser adquiridos e utilizados como entrada para a ferramenta de
extrao apresentada no captulo 3.
Os dados dos currculos Lattes dos professores foram extrados no dia 28 de outubro de
2010. Para realizar a Minerao de Dados foi utilizada uma ferramenta WEKA apresentada
no captulo 4.
4.2 Clusterizao
A tarefa de clusterizao foi executada com vrias conguraes, mas em todas foi utilizado
o algoritmo K-means juntamente com a distncia Euclidiana, para medir a similaridade entre
os objetos.
O primeiro experimento foi realizado com 2 clusters. Nesse caso, o algoritmo separou os
4.2 Clusterizao
32
professores que possuem boa produo cientca (cluster 1 - 14 professores) dos que possuem
pouca produo cientca (cluster 0 - 115 professores), conforme pode ser observado na gura
15. Uma caracterstica que pode ser observada que os professores pertencentes ao cluster
1 em mdia atualizaram seus currculos h menos de 3 meses, j os professores pertencentes
ao cluster 0 em mdia atualizaram seus currculos h mais de 2 anos. Outra caracterstica
que pode ser observada que embora o cluster 1 tenha agrupado professores com nmero
de publicaes elevadas (em mdia 113 publicaes), poucas publicaes possuem DOI (em
mdia 6 publicaes).
Figura 15: Experimento com 2 agrupamentos.
O segundo experimento que foi realizado visou separar os professores em 3 clusters. Nesse
caso o algoritmo separou professores com pouca (cluster 0 - 24 professores), razovel (cluster
2 - 91 professores) e boa (cluster 1 - 14 professores) produo cientca, conforme pode ser observado na gura 16. Os professores pertencentes ao cluster 1 so os mesmos que pertenciam
ao cluster 1 no experimento anterior, de forma que com o aumento de uma unidade no nmero
de clusters, o algoritmo separou melhor o grupo de professores que possuam pouca produo
cientca. Desta forma, o cluster 0 agrupa os professores que possuem pouca produo cientca, orientaes, projetos e atividades. J o cluster 2 agrupa os professores que possuem
algumas publicaes em anais de congresso (em mdia 12 publicaes) e orientaes de TCC
e IC. Alm disso, os professores do cluster 2 que possuem atividades de ensino cadastradas,
4.2 Clusterizao
33
j participaram de algumas bancas examinadoras (em mdia 6,6 bancas) e atualizaram seus
currculos h menos de 1 ano.
O terceiro experimento foi realizado com 4 clusters. Nesse caso o algoritmo agrupou
professores com muita produo no cluster 3 (12 professores), os que produzem razoavelmente
no cluster 1 (23 professores), os que produzem pouco no cluster 2 (71 professores) e os que
produzem muito pouco no cluster 0 (23 professores), como pode ser observado na gura 17.
Juntando os professores dos clusters 3 e 1, pode-se notar que aproximadamente 25 professores
possuem produo relevante e os demais possuem produo inexpressiva.
O quarto experimento foi realizado com 5 clusters. Nesse caso o algoritmo estraticou
os dados da seguinte maneira: cluster 0, professores que no possuem, a princpio, o vis de
pesquisa; cluster 1, professores que possuem algumas pesquisas (em mdia 23 publicaes),
orientam (em mdia 27 orientaes) e participaram de algumas bancas examinadoras (em
mdia 18 bancas) e julgadoras (em mdia 3,4 bancas); cluster 2, onde esto agrupados a
maioria dos professores (57% do total), e caracterizado por professores que possuem poucas
publicaes (em mdia 11 publicaes); cluster 3, que possui professores com perl parecido
com os do cluster 1, com a diferena de que os pertencentes ao cluster 3 possuem mais publicaes (em mdia 42 publicaes) e menos orientaes (em mdia 21); cluster 4, professores
que produzem bastante em pesquisa (em mdia 123 publicaes), orientam muitos alunos (em
4.2 Clusterizao
34
mdia 91 orientaes), participam de muitas bancas examinadoras (em mdia 61,6 bancas)
e julgadoras (em mdia 8,5 bancas) e participam de muitas atividades de ensino, pesquisa,
projeto e direo (gura 18). Embora os professores pertencentes ao cluster 4 possuam um
elevado nmero de publicaes, na mdia eles possuem menos publicaes com fator de impacto do que os professores pertencentes ao cluster 3 e tambm menos projetos nanciados
pelo CNPQ.
Conforme pode ser visto na gura 19, os departamentos de eltrica, mecnica e bsico
possuem poucos professores com perl de pesquisador. J nos departamentos de civil e computao, pode-se notar uma maior distribuio dos professores entre os diferentes pers. Alm
disso, pode-se destacar que o departamento de mecnica praticamente no possui professores
com o perl de pesquisador, e o departamento de civil possui aproximadamente 12 professores com esse perl (levando em considerao os professores de civil dos clusters 1, 3 e 4 do
experimento 4). Embora os professores do curso de civil possuam o maior nmero absoluto
de professores com perl de pesquisador, esse curso tambm possui um grande nmero de
professores que aparentemente no apresentam vis de pesquisa (18 professores levando em
considerao os clusters 0 e 2 do experimento 4). Outra caracterstica observada nos experimentos 2, 3 e 4 que o departamento de computao no possui professores sem vis de
pesquisa e, alm disso, mais de metade dos seus professores possuem boa produo cientca
4.2 Clusterizao
35
(levando em considerao os professores de computao dos clusters 1, 3 e 4 do experimento 4

e dos clusters 1 e 3 do experimento 3). O experimento 1 mostra que o nmero de professores
com muitas pesquisas relevantes igual a 14, uma vez que ele separou professores com elevado
nmero de publicaes (cluster 1) dos demais professores (cluster 0).
4.2 Clusterizao
Figura 19: Distribuio dos clusters de acordo com os departamentos.
36
4.3 Regras de associao
37

A tarefa de regras de associao tambm foi analisada neste trabalho, com o objetivo de obter
relacionamentos entre os atributos dos professores. Para realizao desta tarefa foi utilizado o
algoritmo Apriori. Porm, para que esse algoritmo pudesse ser aplicado zeram-se necessrios
alguns pr-processamentos dos dados, uma vez que a maioria dos atributos selecionados neste
trabalho numrica e o algoritmo s funciona com dados nominais.
A ferramenta WEKA possui vrios algoritmos para pr-processamento dos dados, de forma
que para este trabalho foram utilizados dois algoritmos no-supervisionados: discretize, para
discretizar os dados em intervalos; e numeric-to-nominal, para transformar os dados de numricos para nominais.
Aps a realizao de vrios testes alterando os valores do suporte mnimo e da conana do
algoritmo e os atributos de entrada, os resultados apresentaram algumas regras interessantes.
Os experimentos que apresentaram melhores resultados foram executados com o parmetro
conana mnima igual 0,7, sendo esses os experimentos que so descritos a seguir.
Um primeiro experimento com os atributos publicaes e orientaes produziu as regras
apresentadas na gura 20, que indicam um forte relacionamento entre o atributo publicaes e
o atributo orientaes, como pode ser visto se um professor possui poucas publicaes (inferior
a 24 na regra 1 e entre 24 e 48 na regra 2) implica que possui poucas orientaes tambm
(com uma conana de 0,99 na regra 1 e 0,83 na regra 2).
Figura 20: Regras de associao que relacionam os atributos publicaes e orientaes.
O segundo e terceiro experimentos foram realizados selecionando os atributos departamento e orientaes (gura 21) e departamento e publicaes (gura 22), respectivamente.
Estas regras extradas mostram um relacionamento entre os departamentos e as publicaes
e orientaes de um professor. Assim como nos resultados apresentados na tarefa de clusterizao, estas regras indicam que os professores dos departamentos de eltrica, mecnica
e bsico possuem poucas publicaes e orientaes, pois estas regras com conana maior
que 0,8 mostram que se o departamento ao qual o professor pertence mecnica, bsico ou
eltrica implica que seu nmero de publicaes inferior a 24,7 e seu nmero de orientaes
inferior a 24.
38
Figura 21: Regras de associao que relacionam os atributos departamento e orientaes.
Figura 22: Regras de associao que relacionam os atributos departamento e publicaes.
O quarto experimento foi realizado com os atributos departamento e publicacoesComDoi

(gura 23). Dentre as regras extradas pode-se destacar a primeira, que relaciona os professores
do departamento de civil com poucas publicaes com DOI (inferior a 4,2 publicaes), ou
seja, embora possa ser constatado nos resultados da tarefa de clusterizao que tais professores
possuem muitas publicaes, poucas possuem DOI.
Figura 23: Regras de associao que relacionam os atributos departamento e publicaesComDoi.
O quinto experimento foi realizado com os atributos departamento e publicacoesComFator

(gura 24). Assim como no terceiro experimento, pode-se destacar a segunda regra, que
relaciona os professores do departamento de civil com poucos peridicos com fator de impacto
(inferior a 2 peridicos).
Figura 24: Regras de associao que relacionam os atributos departamento e publicaesComFator.
O sexto, stimo e oitavo experimentos foram realizados utilizando os atributos publicaes

e peridicos (gura 25), publicaes e completosAnais (gura 26) e publicaes e resumoAnais
(gura 27), respectivamente. As regras extradas por estes experimentos mostram que artigos
publicados em peridicos, trabalhos completos e resumos publicados em anais de congressos
inuenciam muito o nmero de publicaes gerais de um professor, pois com regras com
39
conana acima de 0,78 pode ser observado que quando o nmero de publicaes inferior
a 24 o nmero de artigos publicados em peridicos inferior a 2,6, o nmero de trabalhos
completos publicados em anais de congresso inferior a 12,9 e o nmero de resumos publicados
em anais de congresso inferior a 13,6.
Figura 25: Regras de associao que relacionam os atributos publicaes e peridicos.
Figura 26: Regras de associao que relacionam os atributos publicaes e completoAnais.
Figura 27: Regras de associao que relacionam os atributos publicaes e resumoAnais.
40
5 Concluso
Este trabalho apresentou uma ferramenta, desenvolvida na linguagem PHP, cujo objetivo
bsico extrair dados automaticamente de currculos da plataforma Lattes. Ainda neste trabalho, so aplicadas tcnicas de Minerao de Dados aos dados extrados por essa ferramenta,
produzindo informaes teis coordenao de pesquisa da Escola Politcnica de Pernambuco.
O trabalho apresenta importantes anlises da produo cientica dos professores da POLI,
por meio da aplicao de algoritmos Minerao de Dados implementados pelo WEKA, clusterizao e regras de associao. Os experimentos apresentam uma importante contribuio
em termos de quais aspectos so caractersticos a pers tanto de professores com pesquisas
relevantes, quanto a pers de professores aparentemente sem vis de pesquisa.
Uma caracterstica que pode ser observada que os professores que possuem vis de
pesquisa procuram manter seus currculos atualizados (em mdia atualizaram seus currculos
h menos de 3 meses), j os professores sem aparente vis de pesquisa em mdia atualizaram
seus currculos h mais de 2 anos.
Alm disso, pode-se concluir que os cursos de eltrica, mecnica e bsico possuem poucos
professores com perl de pesquisador. J nos cursos de civil e computao, pode-se notar uma
maior distribuio dos professores entre os diferentes pers. Tambm pode-se destacar que o
curso de mecnica praticamente no possui professores com o perl de pesquisador e o curso
de civil possui aproximadamente 12 professores com esse perl. No entanto, os professores do
curso de civil possuem poucas publicaes com doi e poucos peridicos com fator de impacto.
Outra caracterstica importante que pode ser extrada que o curso de computao no possui
professores no perl que agrupa professores sem vis de pesquisa.
Outra informao importante extrada indica um forte relacionamento entre o atributo
publicaes e o atributo orientaes, isso pode ocorrer porque publicaes normalmente so
produzidas em conjunto com alunos orientados. Ou seja, o incentivo a orientaes, como
bolsas de iniciao cientca e mestrado, podem resultar em mais publicaes relevantes para
instituio.
5 Concluso
41
Dentre as diculdades encontradas durante o desenvolvimento deste trabalho algumas

devem ser destacadas. O desenvolvimento da ferramenta de extrao concentrou as maiores
diculdades encontradas, devido a falta de padronizao dos dados na plataforma Lattes, uma
vez que os dados podem ser inseridos nos currculos Lattes de forma subjetiva, ou seja, cada
pesquisador pode colocar um mesma informao de vrias formas diferentes. Outra diculdade
foi encontrada para acessar o fator de impacto das publicaes cadastradas nos currculos
Lattes, pois necessrio passar por um processo de autenticao, o que impossibilitaria a
automao da ferramenta de extrao desenvolvida. Para resolver este problema, o acesso a
esta informao foi feito colocando o ISSN (International Standard Serial Number - utilizado
para individualizar o ttulo de uma publicao seriada) na URL da plataforma Lattes que
realiza a busca desta informao no portal ISI Web of Knowledge, pois como os servidores
da plataforma Lattes possuem cadastro neste portal, desta forma no se faz necessria a
autenticao no sistema.
Como trabalho futuro sugere-se a realizao de outras tarefas de Minerao de Dados,
tais como aplicaes de redes neurais para fazer previses da produo cientca da POLI de
acordo com informaes de anos anteriores. Outro trabalho futuro sugerido ampliar o escopo
da pesquisa e realizar um estudo com os professores de todas as unidades que compem a
Universidade de Pernambuco.
42
Referncias
[1] FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge
discovery in databases. AI Magazine, v. 17, p. 3754, 1996.
[2] FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The kdd process for extracting
useful knowledge from volumes of data. Communications of the ACM, v. 39, p. 2734,
1996.
[3] AGRAWAL, R.; SRIKANT, R. Fast algorithms for mining association rules. Proceedings
20th International Conference Very Large Data Bases, VLDB, p. 487499, 1994.
[4] BERKHIN, P. Survey Of Clustering Data Mining Techniques. San Jose, CA, 2002.
Disponvel em: <http://www.ee.ucr.edu/ barth/EE242/clustering_survey.pdf>. Acesso
em: 18 de setembro de 2010.
[5] XU, R.; WUNSCH, D. Survey of clustering algorithms. IEEE Transactions on neural networks, v. 16, p. 645678, 2005.
[6] JAIN, A. K.; DUBES, R. C. Algorithms for clustering data. [S.l.]: Prentice Hall, 1988.
[7] LATTES. Plataforma Lattes. Disponvel em: <http://lattes.cnpq.br/>. Acesso em: 15 de
outubro de 2010.
[8] AMO, S. D. Tcnicas de Minerao de Dados. [S.l.], 2004.
[9] HALL, M. et al. The weka data mining software: An update. SIGKDD Explorations, v. 11,
2009.
[10] HAN, J.; KAMBER, M. Data mining: concepts and techniques. [S.l.]: Morgan Kaufmann,
2006.
[11] JAIN, A. K.; MURTY, M. N.; FLYNN, P. J. Data clustering: A review. ACM computing
surveys (CSUR), v. 31, 1999.
[12] GOWER, J. C. A general coecient of similarity and some of its properties. Biometrics,
v. 27, p. 857871, 1971.
[13] AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining association rules between sets of
items in large databases. Proceedings of the 1993 ACM SIGMOD International Conference
on Management of Data, ACM, p. 207216, 1993.
[14] CNPQ. Conselho Nacional de Desenvolvimento Cientco e Tecnolgico. Disponvel em:
<http://www.cnpq.br/>. Acesso em: 15 de outubro de 2010.
Referncias
43
[15] ARFF.
Attribute
Relation
File
Format.
Disponvel
em:
<http://www.cs.waikato.ac.nz/ ml/weka/ar.html>. Acesso em: 15 de outubro de
2010.
[16] PHP. Disponvel em: <www.php.net>. Acesso em: 18 de setembro de 2010.
[17] MYSQL. Disponvel em: <www.mysql.com>. Acesso em: 18 de setembro de 2010.
[18] JCR. Journal Citation Reports. Disponvel em: <http://thomsonreuters.com/products_se
rvices/science/science_products/a-z/journal_citation_reports>. Acesso em: 15 de outubro de 2010.

Monografia VF - Bruno Carlos

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Monografia VF - Bruno Carlos

Transféré par

Droits d'auteur :

Formats disponibles

.

Trabalho de Concluso de Curso

Aluno: Bruno Carlos Sales de Morais

Bruno Carlos Sales de Morais

Extrao de conhecimento da Plataforma

Departamento de Sistemas e Computao

Recife - PE, Brasil

Tabela de Smbolos e Siglas

Identicao do domnio da aplicao . . . . . . . . . . . . . . . .

Seleo dos dados . . . . . . . . . . . . . . . . . . . . . . . . . .

Limpeza e Pr-processamento dos dados . . . . . . . . . . . . . .

Transformao dos dados . . . . . . . . . . . . . . . . . . . . . .

Interpretao e Avaliao dos padres . . . . . . . . . . . . . . . .

Principais fases da clusterizao . . . . . . . . . . . . . . . . . . .

Classicao das tcnicas de clusterizao . . . . . . . . . . . . .

Tipos de dados e medidas de similaridade . . . . . . . . . . . . . .

Atributos em escala no linear

Objetos formados por atributos de vrios tipos . . . . . .

3 Plataforma Lattes e Ferramentas

Estrutura do currculo Lattes . . . . . . . . . . . . . . . . . . . . . . . .

Ferramenta de Minerao de Dados . . . . . . . . . . . . . . . . . . . . .

Ferramenta de extrao de dados da plataforma Lattes . . . . . . . . . . .

Caractersticas gerais do estudo . . . . . . . . . . . . . . . . . . . . . . .

Etapas do Processo KDD. . . . . . . . . . . . . . . . . . . . . . . . . . .

Principais fases da clusterizao.

Base de dados com transaes de clientes . . . . . . . . . . . . . . . . . .

Tabela booleana de itens-transaes . . . . . . . . . . . . . . . . . . . . .

Tela de pr-processamento da ferramenta WEKA. . . . . . . . . . . . . .

Exemplo de arquivo ARFF.

Exemplo de resultados de clusterizao. . . . . . . . . . . . . . . . . . . .

Exemplo de resultados de regras de associao. . . . . . . . . . . . . . . .

Arquitetura da ferramenta de extrao. . . . . . . . . . . . . . . . . . . .

Base de dados no formato ARFF. . . . . . . . . . . . . . . . . . . . . . .

Experimento com 2 agrupamentos. . . . . . . . . . . . . . . . . . . . . .

Experimento com 3 agrupamentos. . . . . . . . . . . . . . . . . . . . . .

Experimento com 4 agrupamentos. . . . . . . . . . . . . . . . . . . . . .

Experimento com 5 agrupamentos. . . . . . . . . . . . . . . . . . . . . .

Distribuio dos clusters de acordo com os departamentos. . . . . . . . . .

Regras de associao que relacionam os atributos publicaes e orientaes.

Regras de associao que relacionam os atributos departamento e orientaes.

Regras de associao que relacionam os atributos departamento e publicaes.

Regras de associao que relacionam os atributos departamento e publicaes-

Regras de associao que relacionam os atributos departamento e publicaes-

Regras de associao que relacionam os atributos publicaes e peridicos.

Regras de associao que relacionam os atributos publicaes e completoAnais.

Regras de associao que relacionam os atributos publicaes e resumoAnais.

Tabela de contingncia para atributos binrios . . . . . . . . . . . . . . .

Tabela de Smbolos e Siglas

1.1 Formulao do Problema

1.2 Estrutura da monograa

Selecionar dados disponveis na plataforma Lattes referentes produo cientca de

Projetar e desenvolver uma ferramenta para extrair os dados selecionados da plataforma

1.2 Estrutura da monograa

1.2 Estrutura da monograa

O captulo 5 contm as concluses e diculdades encontradas. Alm disso, neste captulo

Neste captulo so apresentados conceitos e denies que so necessrios compreenso deste

Historicamente, encontrar padres em dados conhecido por diferentes nomes em diferentes

2.1 Processo KDD

Figura 1: Etapas do Processo KDD.

2.1.1 Identicao do domnio da aplicao

2.1.2 Seleo dos dados

2.1.3 Limpeza e Pr-processamento dos dados

2.1 Processo KDD

2.1.4 Transformao dos dados

Identicao do domnio da aplicao . . . . . . . . . . . . . . . .

Classicao das tcnicas de clusterizao . . . . . . . . . . . . .

1.2 Estrutura da monograa

Selecionar dados disponveis na plataforma Lattes referentes produo cientca de

1.2 Estrutura da monograa

1.2 Estrutura da monograa

O captulo 5 contm as concluses e diculdades encontradas. Alm disso, neste captulo

Neste captulo so apresentados conceitos e denies que so necessrios compreenso deste

2.1.1 Identicao do domnio da aplicao

Compresso de dados. Mecanismos de codicao so usados para reduzir o tamanho

Sumarizao - uma tarefa descritiva, que consiste em denir um conjunto mnimo de

Modelo de Dependncia - descreve dependncias signicativas entre os atributos. Esses

2.3.2 Classicao das tcnicas de clusterizao

L objetos, onde L um limiar denido pelo usurio. Nessas tcnicas, diferentemente

0. Desta maneira os coecientes de clculo de dissimilaridade apresentados para atributos

2.4.1 Conceitos e Denies

tabela booleana de itens-transaes (gura 6)

tabela de itens-transaes (gura 7). A tabela de itens-transaes um caso