Académique Documents
Professionnel Documents
Culture Documents
EXTRAO DE CONHECIMENTO DA
PLATAFORMA LATTES UTILIZANDO TCNICAS
DE MINERAO DE DADOS: ESTUDO DE CASO
POLI/UPE
Orientador:
Prof. Dr. Carmelo Jose Albanez Bastos Filho
Resumo
Atualmente, existe uma grande diculdade na aquisio de dados sobre a produo cientca do corpo docente dentro das universidades brasileiras. Entretanto, a maior parte destas
informaes pode ser encontrada na plataforma Lattes - um sistema desenvolvido pelo CNPq
(Conselho Nacional de Desenvolvimento Cientco e Tecnolgico) para auxiliar na gesto de
cincia, tecnologia e inovao no Brasil. Minerao de Dados um conjunto de tcnicas que
podem ser utilizadas para extrao de novas informaes em uma base de dados. Desta forma,
a utilizao de tcnicas de Minerao de Dados pode ajudar na extrao de informaes importantes na plataforma Lattes. O presente trabalho apresenta uma ferramenta capaz de extrair
dados automaticamente de currculos da plataforma Lattes. Alm disso, o principal objetivo
deste trabalho aplicar tcnicas de Minerao de Dados nas informaes extradas dos currculos Lattes dos professores da Escola Politcnica de Pernambuco (POLI). Desta maneira,
as novas informaes podem ser utilizadas para auxiliar na tomada de decises dos gestores
da Universidade de Pernambuco com relao a investimentos nos cursos e nos docentes da
instituio.
Abstract
Nowadays, the Brazilian universities have a dicult task that is to collect the scientic
production of their researchers. However, this information is widely available on the Internet
by the Lattes platform - a web-based system developed by the CNPq (Conselho Nacional de
Desenvolvimento Cientco e Tecnolgico). The Lattes platform aims to help the management
of science, technology and innovation in Brazil. Data mining is a set of techniques that can
be used to extract patterns from a database. Thus, some techniques from Data Mining may
be used to extract useful information inside the Lattes platform. The goal of this research is
to present a tool to automatically extracts data from Lattes curriculums. Moreover, we used
some Data Mining techniques to extract hidden information from Lattes curriculums of the
professors of Polytechnic School of Pernambuco (POLI). This new information can be used to
guide decision making of investiments in the institution.
Agradecimentos
Primeiramente agradeo a Deus por me dar discernimento e foras para realizar este
trabalho, pois acredito que sem Ele no conseguiria superar as diculdades enfrentadas ao
longo deste curso.
Aos meus pais Edilson e Nadja que sempre me apoiaram e me encorajaram a concluir esta
graduao. Reconheo todo o esforo que eles zeram para que eu pudesse estudar sem a
preocupao de ter que trabalhar. Um agradecimento especial ao meu irmo Dyego Carlos
por todo o apoio, companheirismo e ajuda na realizao deste trabalho, que por muitas vezes
abdicou de dormir para me ajudar.
Aos meus avs maternos, Elza e Gabriel, e paternos, Dulcelene e Morais, pelo apoio
incondicional e sbios conselhos durante toda a minha vida.
Aos professores do curso de Engenharia da Computao, que sem dvida contriburam para
o que sou hoje como prossional e ser humano. Em especial agradeo ao professor Carmelo, que
mesmo com tantas ocupaes sempre esteve disponvel para me oferecer excelente orientao
durante todo este trabalho.
E por m, agradeo aos meus colegas de turma, em especial, Carlos Eduardo Buarque,
Francisco Marinho e Marcos Antonio, pelas muitas madrugadas que dividimos para que os
inesquecveis projetos desenvolvidos ao longo do curso pudessem ser concludos.
Sumrio
Lista de Figuras
p. iv
Lista de Tabelas
p. vi
p. 7
1 Introduo
p. 1
1.1
Formulao do Problema
. . . . . . . . . . . . . . . . . . . . . . . . . .
p. 1
1.2
Estrutura da monograa . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 2
2 Reviso bibliogrca
2.1
Processo KDD
p. 4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 4
2.1.1
p. 5
2.1.2
p. 5
2.1.3
p. 5
2.1.4
p. 6
2.1.5
Minerao de dados . . . . . . . . . . . . . . . . . . . . . . . . .
p. 7
2.1.6
p. 7
2.1.7
Utilizao do conhecimento . . . . . . . . . . . . . . . . . . . . .
p. 7
2.2
Minerao de Dados
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 7
2.3
Clusterizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 9
2.3.1
p. 9
2.3.2
p. 10
2.3.3
p. 11
2.3.3.1
Atributos Contnuos . . . . . . . . . . . . . . . . . . . .
p. 12
2.3.3.2
Atributos Binrios . . . . . . . . . . . . . . . . . . . . .
p. 13
2.3.3.3
Atributos Nominais . . . . . . . . . . . . . . . . . . . .
p. 14
2.3.3.4
Atributos Ordinais . . . . . . . . . . . . . . . . . . . . .
p. 15
2.3.3.5
. . . . . . . . . . . . . .
p. 15
2.3.3.6
p. 16
Algoritmo K -means . . . . . . . . . . . . . . . . . . . . . . . . .
p. 16
Regras de Associao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 17
2.4.1
Conceitos e Denies . . . . . . . . . . . . . . . . . . . . . . . .
p. 18
2.4.2
Algoritmo Apriori
p. 20
2.3.4
2.4
. . . . . . . . . . . . . . . . . . . . . . . . . .
p. 23
3.1
Plataforma Lattes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 23
3.2
p. 23
3.3
p. 24
3.4
p. 26
4 Estudo de Caso
p. 31
4.1
p. 31
4.2
Clusterizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 31
4.3
Regras de associao . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 37
5 Concluso
p. 40
Referncias
p. 42
Lista de Figuras
1
p. 5
. . . . . . . . . . . . . . . . . . . . . .
p. 9
Matriz de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 11
Matriz de dissimilaridade . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 12
p. 18
p. 18
Tabela de itens-transaes . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 18
Regra de associao . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 22
p. 25
10
. . . . . . . . . . . . . . . . . . . . . . . . .
p. 25
11
p. 26
12
p. 27
13
p. 29
14
p. 30
15
p. 32
16
p. 33
17
p. 34
18
p. 35
19
p. 36
20
p. 37
21
p. 38
22
p. 38
23
ComDoi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
p. 38
ComFator. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 38
25
p. 39
26
p. 39
27
p. 39
Lista de Tabelas
1
p. 14
1 Introduo
Atualmente, com a facilidade de armazenar dados, as empresas e organizaes possuem registros de suas atividades cada vez mais completos. Porm, poucas so as organizaes que
utilizam esses dados para transform-los em conhecimento til para a sua gesto. Ou seja, as
empresas e organizaes possuem grande quantidade de dados, mas no fazem processamentos e anlises desses dados, de forma que sejam produzidas informaes que possam auxiliar
nas suas tomadas de decises.
A informao est se tornando cada vez mais a principal matria-prima de grandes organizaes, por isso faz-se necessrio a aplicao de processos que acelerem a extrao de informaes de grandes bases de dados. Neste contexto, o processo KKD (Knowledge Discovery
in Databases ) pode ser utilizado para auxiliar a descoberta de conhecimento til em grandes
bases de dados [1].
Uma das principais etapas do processo KDD, a Minerao de Dados, consiste na aplicao
de algoritmos com a nalidade de extrair padres de comportamento em uma base de dados [2].
Algumas das mais importantes tarefas descritivas da Minerao de Dados so clusterizao
e regras de associao. Dada essa natureza, essas tarefas foram selecionadas para serem
aplicadas neste trabalho. As regras de associao demonstram o quanto a ocorrncia de um
conjunto de itens implica na ocorrncia de algum outro conjunto distinto de itens nos registros
de uma mesma base de dados [3]. J a clusterizao pode ser utilizada para agrupar os dados
de acordo com uma medida de similaridade pr-denida [4], [5], [6].
de cincia, tecnologia e inovao no Brasil [7]. Sendo, portanto, uma rica fonte de informaes
sobre a produo cientca, tecnolgica e bibliogrca dos pesquisadores do Brasil.
A utilizao de tcnicas de Minerao de Dados [8] pode auxiliar na extrao de informaes importantes desta plataforma e, consequentemente, guiar melhores investimentos na
rea de Cincia & Tecnologia das universidades. Porm, a determinao de padres que so
realmente teis, ainda requer uma grande interao com analistas humanos, o que torna o
processo de extrao do conhecimento uma tarefa no trivial.
Este trabalho visou estudar os conceitos e tcnicas da Minerao de Dados e aplicar o
conhecimento adquirido para descobrir informaes no explcitas nos currculos Lattes dos
professores da Escola Politcnica de Pernambuco - POLI. Este trabalho prope a utilizao
do WEKA (Waikato Environment for Knowledge Analysis ), que um software livre com
implementaes de diversas tcnicas de Minerao de Dados, para auxiliar na extrao do
conhecimento [9]. Especicamente, este trabalho se concentra em:
Selecionar tcnicas de Minerao de Dados para serem aplicadas aos dados obtidos;
Utilizar o WEKA para aplicar as tcnicas selecionadas;
Analisar e organizar as informaes obtidas, de forma que o conhecimento gerado possa
ser utilizado por gestores da instituio.
2 Reviso bibliogrca
2.1
Processo KDD
Valores ausentes. Por vezes, os valores de alguns atributos no esto presentes nas
bases, para lidar com esse problema pode-se: ignorar os registros que possuem valores
ausentes; preencher os valores ausentes manualmente; usar um valor constante, usar o
valor mdio do atributo ou usar valores estatsticos para preencher os valores ausentes.
Valores fora do padro (outliers). Para resolver esse tipo de problema pode-se utilizar
uma das seguintes tcnicas: agrupamento, que consiste no agrupamento dos valores
similares, facilitando a identicao e excluso de valores fora do padro; inspeo
humana e computador, que consiste em uma inspeo feita por pessoas e computadores
para identicar e excluir os valores fora do padro; e regresso, na qual os dados podem
ser ajustados por meio de funes de regresso.
Dados inconsistentes. Esses erros ocorrem normalmente porque o usurio entra com
um dado incorreto, mas pode ocorrer tambm redundncia de dados, ou seja, dados
que possuem o mesmo valor semntico, mas que foram inseridos com nomes diferentes.
Uma forma de resolver esse problema por meio da anlise de correlao, que consiste
na medida de relacionamento entre dois atributos.
Normalizao de atributos. Forma de harmonizar as escalas dos atributos em um pequeno intervalo especicado.
2.2
Minerao de Dados
Minerao de Dados um dos principais passos do processo KDD, que consiste na aplicao de
algoritmos com a nalidade de extrair padres de comportamento em uma base de dados [1].
Essa uma rea de pesquisa multidisciplinar, que inclui inteligncia computacional, matemtica
(estatstica) e banco de dados. Um dos grandes desaos da Minerao de Dados propor
algoritmos que sejam capazes de lidar com escalabilidade e alta dimensionalidade dos dados,
ou seja, trabalhar com grandes quantidades de dados.
Segundo [1], o processo de Minerao de Dados possui dois objetivos principais: predio,
onde a ideia prever o comportamento futuro de algumas variveis da base de dados; e
descrio, onde a ideia identicar padres que representem a distribuio dos itens de tal
forma que esses padres sejam passveis de interpretao.
Classicao - uma tarefa preditiva, que consiste em determinar uma funo que mapeie
cada item de uma base dados a uma das classes previamente denidas. Um exemplo de
classicao identicao de objetos de interesse em grandes bases de imagens.
Regresso - uma tarefa preditiva, cujo objetivo estimar o valor de uma varivel com
base nos valores de outras variveis. Alguns dos exemplos de regresso so: prever o
PIB de um pas; estimar a probabilidade de um paciente sobreviver, dados os resultados
de um conjunto de exames; e prever sries temporais.
Anlise de Sries Temporais - modela caractersticas sequenciais, como dados que possuem dependncias no tempo. O objetivo modelar os estados do processo de gerao
da sequncia, extraindo e relatando os desvios e tendncias no tempo.
As tarefas de clusterizao e regra de associao, por serem as escolhidas para aplicao
no estudo de caso deste trabalho, so descritas mais detalhadamente nas sees 2.3 e 2.4,
respectivamente.
2.3 Clusterizao
2.3
A
Clusterizao
clusterizao, tambm conhecida como anlise de cluster, uma tarefa descritiva, cujo
objetivo encontrar grupos de objetos, tais que, objetos pertencentes a um grupo sejam
similares entre si e diferentes de objetos que pertencem a outro grupo [4], [5], [6].
A tarefa de classicao pode ser dividida em classicao supervisionada e classicao
no supervisionada. Em classicao supervisionada, dada uma coleo de objetos e suas
classes, o problema classicar um novo objeto para o qual a classe no conhecida. Normalmente, os objetos classicados so divididos em um conjunto que usado para aprender
a descrio da classe (treinamento) e outro que usado para testar a informao aprendida.
No caso da clusterizao (classicao no supervisionada), as classes no so previamente
conhecidas, de forma que, o problema se torna classicar objetos por meio de alguma medida
de similaridade de forma que os grupos tenham um signicado relevante.
2.3 Clusterizao
10
2.3 Clusterizao
11
Matriz de dados (ou objetos por atributos) - esta estrutura representa n objetos, tais
como pessoas, com p atributos, tais como altura, peso, idade, sexo e outros. A estrutura
est na forma de uma tabela relacional, ou matriz n p (n objetos p atributos) como
mostrado na gura 3.
Matriz de dissimilaridade (ou objetos por objetos) - esta estrutura armazena uma coleo
de proximidades que so avaliadas para todos os pares de n objetos. Ela muitas vezes
representada por uma matriz n n, conforme pode ser observado na gura 4, na qual
2.3 Clusterizao
12
2.3.3.1
Atributos Contnuos
Atributos contnuos so atributos que podem ser relacionados a funes matemticas contnuas. Exemplos desse tipo de atributo incluem peso, altura, temperatura ambiente e outros.
As medidas de dissimilaridade mais usadas para esse tipo de atributo so as distncias Euclidiana, Manhattan e Minkowski [10].
A unidade de medida usada pode afetar a clusterizao, para que isso no ocorra os dados
devem ser normalizados, ou seja, dar a todos os atributos igual peso. Porm, h casos em
que pode ser til dar mais importncia a um determinado conjunto de dados, por exemplo,
quando clusterizando candidatos a jogadores de basquete, pode-se dar mais peso ao atributo
altura.
Uma forma de normalizar medidas convertendo as medidas originais em atributos sem
unidade. Dados os valores medidos para um atributo f , a normalizao pode ser feita da
seguinte maneira:
1
(| x1f mf | + | x2f mf | + + | xnf mf |),
n
(2.1)
mf =
1
(x1f + x2f + + xnf ).
n
(2.2)
xif mf
.
sf
(2.3)
H outras medidas de disperso robustas, tal como desvio absoluto mediano, mas a vantagem de usar desvio absoluto mdio a facilidade de detectar outliers, pois os escores-z de
2.3 Clusterizao
13
d(i, j) =
q
(| xi1 xj1 |2 + | xi2 xj2 |2 + + | xip xjp |2 ),
(2.4)
na qual i = (xi1 , xi2 , ..., xip ) e j = (xj1 , xj2 , ..., xjp ) so dois objetos de dados p-dimensional.
Outra mtrica bem conhecida a distancia Manhattan, que pode ser dena como:
(2.5)
(2.6)
(2.7)
Atributos Binrios
Uma abordagem para medir a dissimilaridade entre dois atributos binrios calcular a matriz
de dissimilaridade dos dados. Se todos os atributos binrios possuem os mesmos pesos, tem-se
a tabela 1, na qual a o nmero de atributos iguais a 1 para ambos os objetos i e j , b o
nmero de atributos que igual a 1 para i e igual 0 para j , c o nmero de atributos que
igual 0 para i e igual 1 para j , d o nmero de atributos iguais a 0 para ambos os objetos i
e j , e p o nmero total de atributos (p = a + b + c + d).
Um atributo binrio pode ser simtrico ou assimtrico. Ele simtrico quando os dois
estados possuem o mesmo valor e peso, ou seja, no existe preferncia para atribuir 0 ou 1
2.3 Clusterizao
14
1
0
Soma
a
b
c
d
a+c b+d
Soma
a+b
c+d
p
d(i, j) =
b+c
.
a+b+c+d
(2.8)
d(i, j) =
2.3.3.3
b+c
.
a+b+c
(2.9)
Atributos Nominais
Um atributo nominal uma generalizao de atributos binrios, na qual ele pode possuir mais
do que dois estados. Por exemplo, um atributo que mapeia a cor dos olhos de uma pessoa
pode assumir os valores: verde, castanho e azul.
Os estados um atributo nominal podem ser denotados por letras, smbolos ou um conjunto
de inteiros, mas os inteiros no representam nenhuma relao de ordem, apenas servem para
manipular os dados.
A dissimilaridade entre dois objetos i e j pode ser calculada usando a abordagem de
casamento simples (simple matching ) como mostrado a seguir:
d(i, j) =
pm
,
p
(2.10)
2.3 Clusterizao
15
na qual m o nmero de casamentos (ou seja, nmero de atributos nos quais i e j so iguais)
e p o nmero total de atributos.
Atributos nominais podem ser codicados como atributos binrios assimtricos por meio da
criao de um atributo binrio para cada um dos estados que o atributo nominal possua. Para
cada atributo nominal do objeto que pertena a um estado, o atributo binrio correspondente
a este estado mapeado para 1 enquanto o restante dos atributos binrios so mapeados para
Atributos Ordinais
Um atributo ordinal discreto lembra um atributo nominal, exceto pelo fato que os M estados
de um atributo ordinal esto ordenados numa sequncia signicativa. Um exemplo de atributo
ordinal um atributo cujos valores esto na escala Likert, que uma escala muito usada em
pesquisas de opinio, ou seja, os atributos podem assumir valores como: muito bom, bom,
razovel, ruim e muito ruim. Atributos ordinais podem ser obtidos pela discretizao de valores
de atributos contnuos por meio da diviso da faixa de valores em um nmero nito de classes.
Supondo que f um conjunto de atributos ordinais descrevendo n objetos. O clculo da
dissimilaridade de f envolve os seguintes passos:
zif =
rif 1
.
Mf 1
(2.11)
A dissimilaridade pode ser calculada usando qualquer uma das formas apresentadas para
atributos contnuos, usando zif para representar o valor do atributo f para o objeto i.
2.3.3.5
Atributos em escala no linear so atributos que expressam uma medida em uma escala no
linear, como uma escala exponencial, por exemplo. H trs maneiras de calcular dissimilaridade
2.3 Clusterizao
16
Tratar atributos em escala no linear como atributos em escala linear. Porm usualmente
essa no um boa escolha uma vez que a escala pode ser distorcida.
Tratar xif como atributo ordinal e sua posio no raking como atributo contnuo.
2.3.3.6
muito comum que objetos sejam descritos por atributos de vrios tipos. Surge, portanto, a
necessidade de uma forma de medir dissimilaridade para tais objetos.
Uma abordagem juntar todos os atributos de um determinado tipo e realizar a clusterizao para cada tipo de atributo. Outra abordagem mapear todos os atributos para o
intervalo [0; 1] e usar medidas como distncia Euclidiana. H vrias outras abordagens, porm
uma das mais poderosas [12]:
Pp
d(i, j) =
f f
f =1 , ij dij
,
Pp
f
f =1 ij
(2.12)
f
= 0 se (1) xif ou xjf est faltando (quando o valor do atributo f est
na qual o indicador ij
faltando para o objeto i ou j , por exemplo), ou (2) xif = xjf = 0 e o atributo f binrio
f
assimtrico; caso contrrio, ij
= 1. A contribuio do atributo f para dissimilaridade entre
|xif xjf |
,
maxh (xhf )minh (xhf )
rif 1
,
Mf 1
atributo contnuo.
17
mais prximo ao prottipo que dene o cluster do que dos prottipos de quaisquer outros
clusters ). O seu funcionamento pode ser descrito pelos seguintes passos [11]:
1. Atribuir valores iniciais para os centrides (prottipos). Nesse passo, so escolhidos
os k objetos dentro do banco de dados que sero utilizados como centros dos clusters
(centrides). Essa escolha pode ser feita de diversas maneiras, dentre elas: selecionar
as k primeiras entradas; ou selecionar k entradas aleatoriamente.
2. Associar objetos aos centrides. Nesse passo, cada objeto associado, de acordo com
a medida de similaridade, ao centride mais prximo.
3. Recalcular centrides. Nesse passo, para cada cluster recalculado o calor do centride
a partir da mdia dos objetos pertencentes ao cluster.
4. Iterao. O algoritmo repete os passos 2 e 3 at que no haja mudana nos centrides
ou at que relativamente ocorram poucas mudanas nos centrides.
Para avaliao dos clusters criados pelo algoritmo k -means a medida mais comumente
usada a soma dos erros quadrados (Sum of Square Error - SSE ), que pode ser calculada de
acordo com a seguinte equao:
SSE =
K X
X
(2.13)
i=1 xCi
18
que armazena compras realizadas por clientes de um supermercado (gura 5). Como pode
ser observado na gura 5, cada transao da base de dados armazena a relao de produtos
adquiridos por um cliente especco.
particular da tabela booleana de itens-transaes, onde apenas os itens que possuem valor um
na tabela booleana de itens-transaes aparecem na tabela de itens-transaes. Dessa forma,
quando os dados no esto nos formatos apresentados, deve ser realizado o pr-processamento
dos dados.
Uma regra de associao pode ser representada como uma implicao na forma LHS
RHS , onde LHS e RHS so conjuntos disjuntos de itens que representam respectivamente,
19
o lado esquerdo (Left Hand Side ) e o lado direito (Right Hand Side ) da regra. Um exemplo
de regra que poderia ser extrada da base de dados da gura 5 {caf, leite} {po}, cujo
signicado que clientes que compraram caf e leite tendem a comprar po tambm.
Ao conjunto de atributos ou itens ordenados lexicogracamente d-se o nome de itemset .
Um itemset com k elementos costuma ser referenciado como k-itemset . Um exemplo de
sup(Z) =
n(Z)
100,
N
(2.14)
onde n(Z) o nmero de transaes nas quais Z ocorre e N o nmero total de transaes
da base de dados. Por exemplo, o suporte do itemset {caf,leite} de 60% para a base de
dados mostrada na gura 5.
J o suporte de uma regra LHS RHS indica a frequncia com que LHS RHS
ocorre no conjunto de dados, ou seja,
n(LHS RHS)
100,
N
(2.15)
onde n(LHS RHS) o nmero de transaes nas quais LHS e RHS ocorrem juntas e N
o nmero total de transaes da base de dados. No exemplo 1, mostrado como calcular o
suporte da regra {caf, leite} {po} para a base de dados apresentada na gura 5.
n({caf e,leite}{p
ao})
5
100 =
3
5
100 = 60%.
conana de uma regra LHS RHS , conf (LHS RHS), representa, dentre as
transaes que contm LHS , a porcentagem de transaes que tambm contm RHS , ou
seja,
(2.16)
No exemplo 2, calculada a conana da regra {caf, leite} {po} para a base apresentada na gura 5.
sup(caf e,leitep
ao)
sup(caf e,leite)
100 =
60
60
100 = 100%.
Um k -itemset dito frequente quando o seu suporte maior ou igual ao suporte mnimo
denido pelo usurio.
De acordo com [3], a tcnica de regras de associao pode ser descrita formalmente da
seguinte maneira:
20
Seja I = {i1 , i2 , ..., in } o conjunto de itens que compem uma base de dados D e T
o conjunto de transaes da mesma base de dados, cada transao ti T composta por
um conjunto de itens tal que ti I . A regra de associao uma implicao na forma
21
sup({leite}) =
sup({caf e}) =
4
5
sup({p
ao}) =
1
5
sup({manteiga}) =
2
5
sup({ovos}) =
2
5
sup({arroz}) =
100 = 80%
100 = 80%
sup({biscoito}) =
sup({queijo}) =
100 = 60%
100 = 20%
2
5
100 = 40%
100 = 40%
100 = 40%
2
5
sup({f eij
ao}) =
100 = 40%
2
5
100 = 40%
3
5
3
5
3
5
100 = 60%
100 = 60%
100 = 60%
3
5
100 = 60%
22
23
Neste captulo, so apresentadas a plataforma Lattes e algumas ferramentas que foram utilizadas na realizao deste trabalho. A seo 3.1 apresenta a plataforma Lattes e seus componentes. A seguir, na seo 3.2, apresentada a estrutura do sistema de currculos Lattes.
Na seo 3.3, apresentada a ferramenta utilizada apra realizar as tarefas de Minerao de
Dados. Por m, na seo 3.4, apresentada uma ferramenta de extrao e estruturao dos
dados obtidos a partir da plataforma Lattes.
24
Dados Gerais: este mdulo agrupa dados de identicao, endereos, formao acadmica e complementar, atuao prossional, reas de atuao e outros;
Citaes: reune indicadores de referncias de outros pesquisadores aos trabalhos publicados do pesquisador.
(a) Esse boto permite a seleo de bases de dados no formato ARFF (Attribute-Relation
File Format );
(b) Nessa rea podem ser selecionados algoritmos para pr-processar os dados (discretizar
atributos, por exemplo);
25
A ferramenta WEKA recebe como entrada arquivos no formato ARFF, que so compostos
por 3 elementos (Figura 10): (a) relation, que dene um nome para a relao estudada; (b)
atribute, onde so especicados os atributos que compem a base de dados; e (c) data, que
contempla os dados separados por vrgulas [15].
26
27
houve a necessidade da construo de uma ferramenta para extrao e estruturao dos dados
da Plataforma Lattes. Portanto, foi desenvolvida uma ferramenta que obtm os dados dos
currculos e transforma-os em um banco de dados. Nesta seo descrito o funcionamento
dessa ferramenta e a forma como os dados foram organizados aps a extrao.
A ferramenta foi desenvolvida utilizando PHP (Hypertext Preprocessor ) [16], que uma
linguagem de programao muito usada em pginas dinmicas da web, e o sistema de gerenciamento de banco de dados relacional MYSQL [17]. Os principais dados selecionados dos
currculos dos pesquisadores so:
Citation Reports ) [18] para medir o desempenho de um jornal com relao a outros da
mesma rea;
28
oriIC e oriOutras ;
bancaEX - nmero de participaes em bancas examinadoras;
bancaJUL - nmero de participaes em bancas julgadoras;
projetoCnpq - nmero de projetos nanciados pelo CNPQ;
projetoFacepe - nmero de projetos nanciados pela FACEPE(Fundao de Amparo
Cincia e Tecnologia do Estado de Pernambuco);
29
Extrao de dados. As informaes necessrias criao da base de dados so extradas do texto HTML, por meio de funes PHP que reconhecem expresses regulares
(padres) em strings. O texto semi-estruturado em HTML facilitou o estabelecimento
dos padres, uma vez que as tags puderam ser utilizadas como delimitadores para identicao dos dados de interesse.
30
31
4 Estudo de Caso
4.2 Clusterizao
A tarefa de clusterizao foi executada com vrias conguraes, mas em todas foi utilizado
o algoritmo K-means juntamente com a distncia Euclidiana, para medir a similaridade entre
os objetos.
O primeiro experimento foi realizado com 2 clusters. Nesse caso, o algoritmo separou os
4.2 Clusterizao
32
professores que possuem boa produo cientca (cluster 1 - 14 professores) dos que possuem
pouca produo cientca (cluster 0 - 115 professores), conforme pode ser observado na gura
15. Uma caracterstica que pode ser observada que os professores pertencentes ao cluster
1 em mdia atualizaram seus currculos h menos de 3 meses, j os professores pertencentes
ao cluster 0 em mdia atualizaram seus currculos h mais de 2 anos. Outra caracterstica
que pode ser observada que embora o cluster 1 tenha agrupado professores com nmero
de publicaes elevadas (em mdia 113 publicaes), poucas publicaes possuem DOI (em
mdia 6 publicaes).
O segundo experimento que foi realizado visou separar os professores em 3 clusters. Nesse
caso o algoritmo separou professores com pouca (cluster 0 - 24 professores), razovel (cluster
2 - 91 professores) e boa (cluster 1 - 14 professores) produo cientca, conforme pode ser observado na gura 16. Os professores pertencentes ao cluster 1 so os mesmos que pertenciam
ao cluster 1 no experimento anterior, de forma que com o aumento de uma unidade no nmero
de clusters, o algoritmo separou melhor o grupo de professores que possuam pouca produo
cientca. Desta forma, o cluster 0 agrupa os professores que possuem pouca produo cientca, orientaes, projetos e atividades. J o cluster 2 agrupa os professores que possuem
algumas publicaes em anais de congresso (em mdia 12 publicaes) e orientaes de TCC
e IC. Alm disso, os professores do cluster 2 que possuem atividades de ensino cadastradas,
4.2 Clusterizao
33
j participaram de algumas bancas examinadoras (em mdia 6,6 bancas) e atualizaram seus
currculos h menos de 1 ano.
O terceiro experimento foi realizado com 4 clusters. Nesse caso o algoritmo agrupou
professores com muita produo no cluster 3 (12 professores), os que produzem razoavelmente
no cluster 1 (23 professores), os que produzem pouco no cluster 2 (71 professores) e os que
produzem muito pouco no cluster 0 (23 professores), como pode ser observado na gura 17.
Juntando os professores dos clusters 3 e 1, pode-se notar que aproximadamente 25 professores
possuem produo relevante e os demais possuem produo inexpressiva.
O quarto experimento foi realizado com 5 clusters. Nesse caso o algoritmo estraticou
os dados da seguinte maneira: cluster 0, professores que no possuem, a princpio, o vis de
pesquisa; cluster 1, professores que possuem algumas pesquisas (em mdia 23 publicaes),
orientam (em mdia 27 orientaes) e participaram de algumas bancas examinadoras (em
mdia 18 bancas) e julgadoras (em mdia 3,4 bancas); cluster 2, onde esto agrupados a
maioria dos professores (57% do total), e caracterizado por professores que possuem poucas
publicaes (em mdia 11 publicaes); cluster 3, que possui professores com perl parecido
com os do cluster 1, com a diferena de que os pertencentes ao cluster 3 possuem mais publicaes (em mdia 42 publicaes) e menos orientaes (em mdia 21); cluster 4, professores
que produzem bastante em pesquisa (em mdia 123 publicaes), orientam muitos alunos (em
4.2 Clusterizao
34
mdia 91 orientaes), participam de muitas bancas examinadoras (em mdia 61,6 bancas)
e julgadoras (em mdia 8,5 bancas) e participam de muitas atividades de ensino, pesquisa,
projeto e direo (gura 18). Embora os professores pertencentes ao cluster 4 possuam um
elevado nmero de publicaes, na mdia eles possuem menos publicaes com fator de impacto do que os professores pertencentes ao cluster 3 e tambm menos projetos nanciados
pelo CNPQ.
Conforme pode ser visto na gura 19, os departamentos de eltrica, mecnica e bsico
possuem poucos professores com perl de pesquisador. J nos departamentos de civil e computao, pode-se notar uma maior distribuio dos professores entre os diferentes pers. Alm
disso, pode-se destacar que o departamento de mecnica praticamente no possui professores
com o perl de pesquisador, e o departamento de civil possui aproximadamente 12 professores com esse perl (levando em considerao os professores de civil dos clusters 1, 3 e 4 do
experimento 4). Embora os professores do curso de civil possuam o maior nmero absoluto
de professores com perl de pesquisador, esse curso tambm possui um grande nmero de
professores que aparentemente no apresentam vis de pesquisa (18 professores levando em
considerao os clusters 0 e 2 do experimento 4). Outra caracterstica observada nos experimentos 2, 3 e 4 que o departamento de computao no possui professores sem vis de
pesquisa e, alm disso, mais de metade dos seus professores possuem boa produo cientca
4.2 Clusterizao
35
4.2 Clusterizao
36
37
O segundo e terceiro experimentos foram realizados selecionando os atributos departamento e orientaes (gura 21) e departamento e publicaes (gura 22), respectivamente.
Estas regras extradas mostram um relacionamento entre os departamentos e as publicaes
e orientaes de um professor. Assim como nos resultados apresentados na tarefa de clusterizao, estas regras indicam que os professores dos departamentos de eltrica, mecnica
e bsico possuem poucas publicaes e orientaes, pois estas regras com conana maior
que 0,8 mostram que se o departamento ao qual o professor pertence mecnica, bsico ou
eltrica implica que seu nmero de publicaes inferior a 24,7 e seu nmero de orientaes
inferior a 24.
38
39
conana acima de 0,78 pode ser observado que quando o nmero de publicaes inferior
a 24 o nmero de artigos publicados em peridicos inferior a 2,6, o nmero de trabalhos
completos publicados em anais de congresso inferior a 12,9 e o nmero de resumos publicados
em anais de congresso inferior a 13,6.
40
5 Concluso
Este trabalho apresentou uma ferramenta, desenvolvida na linguagem PHP, cujo objetivo
bsico extrair dados automaticamente de currculos da plataforma Lattes. Ainda neste trabalho, so aplicadas tcnicas de Minerao de Dados aos dados extrados por essa ferramenta,
produzindo informaes teis coordenao de pesquisa da Escola Politcnica de Pernambuco.
O trabalho apresenta importantes anlises da produo cientica dos professores da POLI,
por meio da aplicao de algoritmos Minerao de Dados implementados pelo WEKA, clusterizao e regras de associao. Os experimentos apresentam uma importante contribuio
em termos de quais aspectos so caractersticos a pers tanto de professores com pesquisas
relevantes, quanto a pers de professores aparentemente sem vis de pesquisa.
Uma caracterstica que pode ser observada que os professores que possuem vis de
pesquisa procuram manter seus currculos atualizados (em mdia atualizaram seus currculos
h menos de 3 meses), j os professores sem aparente vis de pesquisa em mdia atualizaram
seus currculos h mais de 2 anos.
Alm disso, pode-se concluir que os cursos de eltrica, mecnica e bsico possuem poucos
professores com perl de pesquisador. J nos cursos de civil e computao, pode-se notar uma
maior distribuio dos professores entre os diferentes pers. Tambm pode-se destacar que o
curso de mecnica praticamente no possui professores com o perl de pesquisador e o curso
de civil possui aproximadamente 12 professores com esse perl. No entanto, os professores do
curso de civil possuem poucas publicaes com doi e poucos peridicos com fator de impacto.
Outra caracterstica importante que pode ser extrada que o curso de computao no possui
professores no perl que agrupa professores sem vis de pesquisa.
Outra informao importante extrada indica um forte relacionamento entre o atributo
publicaes e o atributo orientaes, isso pode ocorrer porque publicaes normalmente so
produzidas em conjunto com alunos orientados. Ou seja, o incentivo a orientaes, como
bolsas de iniciao cientca e mestrado, podem resultar em mais publicaes relevantes para
instituio.
5 Concluso
41
42
Referncias
[1] FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge
discovery in databases. AI Magazine, v. 17, p. 3754, 1996.
[2] FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The kdd process for extracting
useful knowledge from volumes of data. Communications of the ACM, v. 39, p. 2734,
1996.
[3] AGRAWAL, R.; SRIKANT, R. Fast algorithms for mining association rules. Proceedings
20th International Conference Very Large Data Bases, VLDB, p. 487499, 1994.
[4] BERKHIN, P. Survey Of Clustering Data Mining Techniques. San Jose, CA, 2002.
Disponvel em: <http://www.ee.ucr.edu/ barth/EE242/clustering_survey.pdf>. Acesso
em: 18 de setembro de 2010.
[5] XU, R.; WUNSCH, D. Survey of clustering algorithms. IEEE Transactions on neural networks, v. 16, p. 645678, 2005.
[6] JAIN, A. K.; DUBES, R. C. Algorithms for clustering data. [S.l.]: Prentice Hall, 1988.
[7] LATTES. Plataforma Lattes. Disponvel em: <http://lattes.cnpq.br/>. Acesso em: 15 de
outubro de 2010.
[8] AMO, S. D. Tcnicas de Minerao de Dados. [S.l.], 2004.
[9] HALL, M. et al. The weka data mining software: An update. SIGKDD Explorations, v. 11,
2009.
[10] HAN, J.; KAMBER, M. Data mining: concepts and techniques. [S.l.]: Morgan Kaufmann,
2006.
[11] JAIN, A. K.; MURTY, M. N.; FLYNN, P. J. Data clustering: A review. ACM computing
surveys (CSUR), v. 31, 1999.
[12] GOWER, J. C. A general coecient of similarity and some of its properties. Biometrics,
v. 27, p. 857871, 1971.
[13] AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining association rules between sets of
items in large databases. Proceedings of the 1993 ACM SIGMOD International Conference
on Management of Data, ACM, p. 207216, 1993.
[14] CNPQ. Conselho Nacional de Desenvolvimento Cientco e Tecnolgico. Disponvel em:
<http://www.cnpq.br/>. Acesso em: 15 de outubro de 2010.
Referncias
43
[15] ARFF.
Attribute
Relation
File
Format.
Disponvel
em:
<http://www.cs.waikato.ac.nz/ ml/weka/ar.html>. Acesso em: 15 de outubro de
2010.
[16] PHP. Disponvel em: <www.php.net>. Acesso em: 18 de setembro de 2010.
[17] MYSQL. Disponvel em: <www.mysql.com>. Acesso em: 18 de setembro de 2010.
[18] JCR. Journal Citation Reports. Disponvel em: <http://thomsonreuters.com/products_se
rvices/science/science_products/a-z/journal_citation_reports>. Acesso em: 15 de outubro de 2010.