Vous êtes sur la page 1sur 57

UNIVERSIDADE FEDERAL DA BAHIA

INSTITUTO DE MATEMÁTICA
DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO

ERLAN CARDOSO XAVIER

Análise de retenção de discentes de graduação por meio de


mineração de dados: um estudo de caso no Bacharelado em
Sistemas de Informação da UFBA

SALVADOR
2013
ERLAN CARDOSO XAVIER

Análise de retenção de discentes de graduação por meio de


mineração de dados: um estudo de caso no Bacharelado
em Sistemas de Informação da UFBA

Monografia apresentada ao Curso de Bacharelado


em Ciência da Computação, Departamento de
Ciência da Computação, Instituto de Matemática,
Universidade Federal da Bahia, como requisito
parcial para obtenção do grau de Bacharel em
Ciência da Computação.

Orientadora: Prof.ª Dra. Daniela Barreiro Claro

SALVADOR
2013
RESUMO

Um dos grande desafios enfrentados no meio acadêmico brasileiro refere-se à retenção


e à evasão de discentes, atingindo tanto o setor público como o privado. Com a implantação
do REUNI nas Universidades Públicas Federais, diversas análises foram realizadas com o
intuito de avaliar os índices de retenção e evasão após a sua implantação. Especificamente na
UFBA, o curso de Bacharelado em Sistemas de Informação foi analisado a fim de detectar
possíveis componentes curriculares que retém os seus discentes. O KDD vem sendo utilizado
com sucesso em diversas áreas e na área acadêmica alguns resultados têm sido utilizados para
auxiliar os seus gestores. Assim, o presente trabalho, a partir de uma ferramenta desenvolvida
que realiza as etapas do KDD, tem por objetivo utilizar algoritmos de associação para auxiliar
na descoberta de padrões que subsidiem o problema da retenção de discentes através do
histórico acadêmico dos discentes do curso de BSI. Regras de Associações foram geradas a
partir de uma confiança e suporte acima de oitenta e dez por cento respectivamente a fim de
auxiliar o coordenador acadêmico na análise do problema da retenção de discentes e prover
algumas sugestões de melhorias para o curso de Bacharelado em Sistemas de Informação da
UFBA.

Palavras-chave: Mineração de Dados, Educação, Retenção.


ABSTRACT

One of the great challenges in the brazilian academic refers to retention and drop out
of students, including both the public sector and the private. With the deployment of REUNI
in the Federal Public Universities, various analyzes were performed in order to evaluate the
rates of retention and drop out after their deployment. Specifically at UFBA, the course of
Bachelor of Information Systems was analyzed to detect possible curriculum components that
retain their students. KDD has been used successfully in several areas in academic and some
results have been used to aid their managers. Thus, the present work from a tool developed
which performs the steps of KDD, this study aims to use association algorithms to aid in the
discovery of patterns that support the problem of retaining students through the academic
record of the students from the course. Association rules are generated from a support and
confidence greater than eighty ten percent respectively to assist the academic coordinator in
the analysis of the problem of retaining students and provide some suggestions for
improvements to the course of Bachelor of Information Systems from UFBA.

Keywords: Data Mining, Education, Retention.


LISTA DE FIGURAS

2.1 Ingressos e diplomados no âmbito público . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Ingressos e diplomados no âmbito UFBA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3.1 Mineração de Dados: intersecção de várias áreas (KAMPFF, 2009) . . . . . . . . . . . . . . . . 9

3.2 Etapas do KDD, adaptada de (REZENDE, 2005) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.3 Abordagens para Mineração de Dados (REZENDE, 2005) . . . . . . . . . . . . . . . . . . . . . . 12

3.4 Árvore de decisão para classificação de clientes (SOUZA, 2008) . . . . . . . . . . . . . . . . 13

3.5 Árvore de decisão para classificação de discentes quanto ao resultado em uma dada
disciplina criada a partir da tabela 3.1 (KAMPFF, 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.6 Clusters baseados na tabela 3.1, (KAMPFF, 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4.1 Exemplo de histórico escolar usado no estudo de caso . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.2 Carga de dados, fase de pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.3 Modelo: criado para armazenamento de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.4 Modelo criado para armazenamento de dados derivados . . . . . . . . . . . . . . . . . . . . . . . . 22

4.5 Seleção de dados, fase de pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.6 Transformação de dados, fase de pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.7 Modelo criado para armazenamento de dados transformados . . . . . . . . . . . . . . . . . . . . . 25

4.8 Construção de um k-itemset candidato a partir de dois frequentes de tamanho k-1 (AMO,
2003). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.9 Função para geração de candidatos à itemsets frequentes . . . . . . . . . . . . . . . . . . . . . . . 28

4.10 Cálculo do suporte dos candidatos à itemsets frequentes . . . . . . . . . . . . . . . . . . . . . . 29

5.1 Histórico de discente com alguns problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.2 Fluxograma do curso de BSI. Dados com registros de disciplinas até o 5º semestre, à
esquerda da barra divisória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5.3 Listagem 1 das regras periféricas envolvendo atributos semestrais e gerais dos discentes . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.4 Listagem 2 das regras periféricas envolvendo atributos semestrais e gerais dos discentes . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.5 Listagem 1 das regras periféricas envolvendo disciplinas entre si . . . . . . . . . . . . . . . . . 36

5.6 Listagem 2 das regras periféricas envolvendo disciplinas entre si . . . . . . . . . . . . . . . . . 37

5.7 Aprovação em Estrutura de Dados implica aprovação em Programação Orientada a


Objetos, Introdução a Ling. Formais e Teo. Comp. e Álgebra Linear, com confiança a partir
de 80% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.8 Listagem 1 das regras centrais envolvendo atributos semestrais e gerais dos discentes . 38

5.9 Listagem 2 das regras centrais envolvendo atributos semestrais e gerais dos discentes . 39

5.10 Listagem das regras centrais envolvendo disciplinas entre si . . . . . . . . . . . . . . . . . . . . 40

5.11 Relações de resultados entre as disciplinas Introdução à Lógica de Programação,


MATA37 e Matemática Discreta I, MATA42, e entre esta e Cálculo A, MATA02 . . . . . . . 40

5.12 Listagem das regras envolvendo a disciplinas MATC90 . . . . . . . . . . . . . . . . . . . . . . . . 41

5.13 Relações de resultados entre as disciplinas Introdução à Lógica de Programação,


MATA37, Matemática Discreta I, MATA42, Cálculo A, MATA02 com Circuitos Digitais e
Arq. Computadores, MATC90 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.14 Desempenho dos discentes em MATA42 nos anos de 2010, 2011 e 2012 . . . . . . . . . . 42
LISTA DE TABELAS

2.1 Evolução do Número de Ingressos por Categoria Administrativa (INEP, 2012) . . . . . . . 4


2.2 Evolução do Número de Concluintes por Categoria Administrativa (INEP, 2012) . . . . . . 4
2.3 Taxa de Conclusão média no âmbito público, privado e total, adaptada de (INEP, 2012). 5
2.4 Taxa de conclusão média no âmbito público federal, estadual e municipal, adaptada de
(INEP, 2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.5 Taxa de conclusão média da UFBA, adaptada de (UFBA, 2012) . . . . . . . . . . . . . . . . . . . 6
3.1 Tabela de desempenho de discentes em uma dada disciplina (KAMPFF, 2009) . . . . . . 14
4.1 Atributos do modelo criado para armazenamento de dados . . . . . . . . . . . . . . . . . . . . . . 21
4.2 Derivações de atributos a partir dos dados iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3 Características de dados e técnicas apropriadas de MD (DIAS, 2005) . . . . . . . . . . . . . . 26
5.1 Transformações dos dados iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
LISTA DE ABREVIATURAS E SIGLAS

BSI Bacharelado em Sistemas de Informação p. 30


DW Data Warehousing p. 18
INEP Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira p. 3
KDD Knowledge Discovery in Databases p. 1
MD Mineração de Dados p. 8
MEC Ministério da Educação p. 3
OLAP On-line Analytical Processing p. 18
PDF Portable Document Format p. 19
REUNI Programa de Apoio a Planos de Reestruturação e Expansão das
Universidades Federais p. 3
RG Registro Geral p. 11
SGBD Sistema Gerenciador de Banco de Dados p. 20
SIAC Sistema Acadêmico p. 19
UFBA Universidade Federal Da Bahia p. 1
SUMÁRIO

1 Introdução 1

2 Retenção e Evasão 3

3 Processo de Descoberta do Conhecimento KDD 8

3.1 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.2 Pós-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.3 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.3.1 Tarefas da Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.3.2 Técnicas da Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.4 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.5 Data warehousing

4 Aplicando o KDD 19

4.1 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.2 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.3 Pós-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

5 Estudo de Caso 30

5.1 O Curso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.2 Aplicando o KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.2.1 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.2.2 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.2.3 Pós-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6 Conclusão 44

6.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

Referências 46
1

1 INTRODUÇÃO

Um dos grande desafios enfrentados no meio acadêmico brasileiro, já há muito tempo, é o


problema da retenção e evasão de discentes, atingindo tanto o setor público como o privado.
Esse problema tem sido objeto de estudo em diversas pesquisas, e na esfera da administração
pública federal, estudos e projetos têm levantado a relevância desse problema.

No âmbito público federal esse problema foi relatado pelo REUNI em (SESU/MEC,
2007) ao constar que em alguns cursos o problema da evasão atinge níveis alarmantes. A
partir disso, o REUNI estabeleceu como uma de suas metas a elevação da taxa de conclusão
média dos cursos para noventa por cento.

No que diz respeito à Universidade Federal Da Bahia, UFBA, a taxa de conclusão


média dos cursos nos últimos cinco anos ficou com uma média de sessenta e cinco por cento,
consistindo dessa forma um grande desafio para a UFBA atingir a meta estabelecida pelo
REUNI.

A partir da informatização das organizações, têm-se percebido o descompasso entre o


crescimento da quantidade de dados produzidos e a capacidade de análise de tais dados pelo
homem. Nesse contexto, buscando atender às necessidade de gestores de organizações, surge
o Processo de Descoberta de Conhecimento em Base de Dados, Knowledge Discovery in
Databases, KDD, que baseado em (FAYYAD; SMYTH, 1996) e (FREITAS, 2002), pode ser
definido como o processo de descobrir padrões novos, válidos, úteis e compreensíveis em
base de dados de maneira automática ou semi-automática.

O KDD tem despertado o interesse em diversas áreas como no Marketing (tentando


descobrir o perfil de compra de clientes para lançar ofertas e promoções), na Medicina (ao se
tentar caracterizar doenças pelos seus sintomas), em operações financeiras (na análise de
fraudes e análise de pedido de crédito ao se categorizar um cliente como um provável bom ou
mau pagador), na Web e em outras áreas (DIAS, 2005).

Apesar de ser ainda recente a aplicação do KDD na área acadêmica (MANHÃES et


al., 2012), alguns trabalhos têm obtido resultados que podem ser utilizados pelos gestores na
tomada de decisão de seus negócios. Os trabalhos relacionados a este (seção 3.4) mostram
alguns desses resultados .
2

Assim, este trabalho teve por objetivo fazer análises de retenção de discentes usando o
KDD tomando como estudo de caso os dados de desempenho acadêmico de discentes do
curso de Bacharelado em Sistema de Informação, BSI, da Universidade Federal da Bahia.
Para usar o KDD, foi desenvolvida a ferramenta UFBAMiner que realiza as etapas do
processo. Foi utilizada a tarefa de Associação e regras de associação com confiança acima de
oitenta por cento foram descobertas. Análises dos resultados mostraram que existem
disciplinas que são norteadoras para o desempenho dos discentes em sua vida acadêmica.
Algumas disciplinas foram particularmente analisadas gerando para as mesmas sugestões para
um melhor aproveitamento e desempenho por parte dos discentes.

A organização deste trabalho ocorre da seguinte maneira: o Capítulo 2 analisa o


problema da retenção e evasão a partir de alguns dados. O Capítulo 3 discorre sobre a
fundamentação teórica usada e trabalhos relacionados. O Capítulo 4 detalha e justifica as
escolhas adotadas para o KDD, juntamente com a ferramenta desenvolvida. O estudo de caso
analisado fica por conta do Capítulo 5. O Capítulo 6 consta de algumas conclusões e possíveis
trabalhos futuros.
3

2 RETENÇÃO E EVASÃO

A retenção e a evasão, já há muito tempo, constituem um grande problema no meio


acadêmico brasileiro, atingindo tanto o setor privado como o público. A retenção ocorre
quando o discente permanece na instituição de ensino além do tempo previsto para a
conclusão de seu curso. A evasão diz respeito à saída do discente de seu curso sem tê-lo
concluído.

Na administração pública federal, o MEC, Ministério da Educação, a partir dos Censos


de Educação Superior realizados anualmente pelo Instituto Nacional de Estudos e Pesquisas
Educacionais Anísio Teixeira, INEP, têm constatado melhorias no aumento do número de
vagas, matrículas, ingressos, concluintes e outros nos últimos dez anos (INEP, 2012).
Entretanto, quanto ao índice de conclusão, apesar de ter aumentado em números,
relativamente ao número de ingressos é ainda preocupante.

Diferentemente dos documentos que analisaram os resultados dos últimos censos, em


2007, as Diretrizes Gerais do REUNI, Programa de Apoio a Planos de Reestruturação e
Expansão das Universidades Federais, deixaram claro o quão relevante é o problema da
retenção e evasão de discentes, citando, por exemplo, que em alguns casos os índices de
evasão de discentes atingem níveis alarmantes (SESU/MEC, 2007).

O REUNI, instituído pelo Decreto nº 6.096, de 24 de abril de 2007 (BRASIL, 2007),


por meio de suas Diretrizes Gerais, tem dentre os seus objetivos dotar às universidades
federais condições para ampliação de vagas e permanência no ensino superior, a nível de
graduação, com maior qualidade.

Baseado no Censo da Educação Superior de 2005, a criação do REUNI apoiou-se na


argumentação de que o sistema de ensino superior brasileiro ainda mantinha em sua
concepção de formação e organização acadêmica modelos já há muito ultrapassados,
caracterizados pela segmentação do conhecimento, dessincronização entre a demanda da
sociedade e a produção acadêmica, escolha precoce do curso por parte do discente entre
outros, contribuindo para a evasão.

As diretrizes do REUNI definem posições claras quanto ao pretendido sobre a redução


das taxas de evasão, sendo esta uma de suas metas globais: elevar a taxa de conclusão média
dos cursos presenciais de graduação para noventa por cento, num período de cinco anos. Essa
meta é pontualmente definida no artigo 1º, § 1º, do decreto que institui o REUNI (BRASIL,
4

2007). A forma de cálculo da taxa anteriormente mencionada é dada pela razão do total de
diplomados dos cursos num dado ano pelo total de vagas de ingresso ofertada pela
universidade cinco anos antes.

Pelos dados do último censo (Tabela 2.1), o número de ingressos em 2010 teve um
aumento de mais de 100% relativo ao ano de 2001 no âmbito público e privado. Na âmbito
público o aumento do número de ingressos foi menor, quase atingindo 90%. A categoria
pública federal, entretanto, foi a que apresentou o maior aumento no índice de ingressantes,
quase 140%, fato este devido, principalmente, ao REUNI, que foi implementado em 2008, no
primeiro semestre para 42 universidades (dentre elas a UFBA) e no segundo semestre para 11
outras universidades (DIFES/SESU/MEC, 2009).

Tabela 2.1: Evolução do Número de Ingressos por Categoria Administrativa (INEP, 2012)

Quanto ao número de concluintes, ou diplomados, Tabela 2.2, a taxa de aumento, no


âmbito publico e privado, teve em 2010 um aumento de quase 150% relativos a 2001.
Entretanto, o setor privado foi responsável por mais de 80% destes concluintes, com um
aumento neste período em torno de 200%. No âmbito público esse aumento foi de pouco mais
de 40%.

Tabela 2.2: Evolução do Número de Concluintes por Categoria Administrativa (INEP, 2012)
5

Apesar dos aumentos das taxas de ingresso e conclusão, e considerando que o aumento
do número de ingressos refletirá no número de concluintes, ainda assim, é notório uma grande
discrepância entre o número de ingressos e o de diplomados.

Usando a forma de cálculo da taxa de conclusão média adotada pelo REUNI tem-se a
Tabela 2.3. Antes, ressalta-se que é usado essa forma de cálculo apenas como uma forma de
percepção do problema aqui apontado, não analisando os resultados do REUNI, uma vez que
este teve início a partir de 2008 (DIFES/SESU/MEC, 2009), sendo realmente aplicável apenas
a partir de 2013, cinco anos depois de iniciado o programa.

Tabela 2.3: Taxa de Conclusão média no âmbito público, privado e total, adaptada de (INEP, 2012)

Pelos valores das taxas calculados, percebe-se como é relevante os efeitos de retenção
e da evasão acadêmica, atingindo tanto o setor público quanto o privado. No último ano,
2010, a taxa de conclusão média nacional ficou abaixo de 50%. Observa-se que os índices de
conclusão não correspondem aos índices de ingressantes. A Figura 2.1, criada a partir da
Tabela 2.3, mostra um gráfico com a diferença entre o número de ingressantes e o número de
diplomados ao fim de cinco anos no âmbito público.
Número de ingressantes / diplomados

400.000
350.000
300.000
250.000
200.000
150.000
100.000
50.000
0
2001 2002 2003 2004 2005 2006
Anos de ingressantes analisados

Ingressos Diplomandos ao fim de 5 anos

Figura 2.1: Ingressos e diplomados no âmbito público

Pela Figura 2.1, percebe-se a disparidade entre o número de ingressantes e o número de


diplomados. Em 2006, por exemplo, o número de ingressantes ultrapassou 350.000,
entretanto, cinco anos depois, menos de 200.000 foram diplomados.
6

Apesar da esfera pública federal ter apresentado o maior índice de ingressos dos
últimos dez anos, de 2001 à 2010 (ver Tabela 2.1), atingindo quase 140%, considerando até
mesmo a esfera privada, em 2010 a taxa de conclusão média ficou um pouco acima de 55%,
Tabela 2.4. Ainda a partir Tabela 2.4, destaca-se, o declínio, quase que constante, da taxa de
conclusão na esfera pública municipal, em 2010 abaixo de 40%.

Tabela 2.4: Taxa de conclusão média no âmbito público federal, estadual e municipal, adaptada de (INEP, 2012)

No que diz respeito à Universidade Federal Da Bahia, UFBA, exceto o ano de 2009,
todos os demais ficaram com taxa de conclusão abaixo de 65%, (Tabela 2.5).

Tabela 2.5: Taxa de conclusão média da UFBA, adaptada de (UFBA, 2012)


Ano Ano
Conclusão Ingresso Diplomados Ingressantes Taxa
2005 2001 2.652 4.349 61,0%
2006 2002 2.498 4.378 57,1%
2007 2003 2.660 4.543 58,6%
2008 2004 2.798 4.452 62,8%
2009 2005 3.067 4.454 68,9%
2010 2006 3.097 4.889 63,3%

80,0%
70,0%
60,0%
Taxa de conclusão

50,0%
40,0%
30,0%
20,0%
10,0%
0,0%
2005 2006 2007 2008 2009 2010
Anos de conclusão analisados

Taxa de conclusão

Figura 2.2: Taxa de conclusão no âmbito UFBA

Pela Figura 2.2, criada a partir da Tabela 2.5, observa-se que a UFBA nos últimos seis
anos não ultrapassou 70% a sua taxa de conclusão.
7

O problema de retenção e evasão tem sido objeto de estudos em diversas pesquisas.


Apesar da retenção e evasão estarem fortemente relacionadas, a evasão tem sido objeto de
maior análise pelos pesquisadores se comparada à retenção. Entretanto, à depender da
abordagem utilizada nas pesquisas, os resultados destas podem sofrer perdas, tanto qualitativa,
como quantitativa, pois a evasão é apenas o "fim de linha" da vida acadêmica do discente,
desprezando-se dessa forma sua trajetória, normalmente precedida por indícios que levam à
retenção e culminem com a evasão.

Nas Diretrizes Gerais do REUNI, apenas a evasão é referenciada de forma direta,


deixando de dar a devida importância à retenção, apesar da própria diretriz concordar com a
intrínseca relação entre ambas.

No ambiente de gestão educacional, (DIAS; CERQUEIRA; LINS, 2009) sugerem que


esse foco na análise de evasão deve-se à percepção do gestor quanto à ocupação dos espaços
utilizados. Um ponto positivo levantado ainda por (DIAS; CERQUEIRA; LINS, 2009) ao se
analisar a retenção é a vinculação que o discente ainda mantêm com a instituição, permitindo
um possível acompanhamento, diferentemente, ou pelo menos mais difícil, no caso do
discente evadido.

Partindo das mesmas causas de evasão devido ao forte relacionamento entre si, as
causas de retenção são variadas, diversas e até mesmo complexas. Entre as mais citadas na
literatura relacionadas aos discentes estão a dificuldade de acompanhamento acadêmico
(manifestada através de reprovação, trancamento de disciplinas, abandono e trancamento de
curso), adaptação (falta de maturidade, formação básica deficiente), relacionamento pessoais
e problemas de ordem financeira. Relacionadas aos cursos estão as causas ligadas desde à
infra-estrutura até o corpo docente.

As consequências da retenção são relevantes em aspectos sociais, acadêmicos e


econômicos, além de pessoais para o discente. Sem dúvidas, o maior prejudicado na retenção
é o próprio discente, gerando por vezes um desgaste emocional. A oferta de vagas é ainda
pequena, gerando exclusão social. Quanto aos aspectos econômicos e sociais, as
consequências da retenção atingem tanto a esfera pública, como a esfera privada. Na esfera
pública, o problema da retenção causa mais gastos para o governo. Já na esfera privada, o
discente retido é mais propenso a evasão, implicando na perda de receitas. Em suma, a
sociedade perde na ocorrência de retenção por não dispor de profissionais de que precisa em
tempo necessário, à um menor custo.
8

3 PROCESSO DE DESCOBERTA DO
CONHECIMENTO KDD

Há certo tempo, a partir da informatização das organizações, têm-se percebido o crescimento


da quantidade de dados produzidos. Essa informatização ocorreu principalmente devido a
queda dos custos, mas também devido a necessidade de um melhor gerenciamento das
organizações, onde métodos anteriores de armazenamento e gerenciamento de dados
tornaram-se inviáveis e improdutivos. Com o aumento da quantidade de dados armazenados,
as organizações têm encontrado dificuldades para analisarem as informações atreladas a tais
dados, tornando-se impraticável à capacidade humana. Nesse contexto surge o Processo de
Descoberta de Conhecimento em Base de Dados, Knowledge Discovery in Databases, KDD.

Apesar deste trabalho referir-se em algumas vezes à Mineração de Dados, MD, Data
Mining, aqui esta é considerada apenas uma etapa do KDD. Na literatura alguns defendem o
KDD e a MD como sendo sinônimos, enquanto outros, defendem que a MD é uma etapa do
KDD, sendo a MD a etapa principal (REZENDE, 2005). Este último posicionamento é o
adotado neste trabalho.

Quanto a MD ser a etapa principal do KDD, isso se deve, pois é nesta etapa que está
concentrada a maior parte da complexidade envolvida no processo: os algoritmos. Entretanto,
as demais etapas: o Pré-processamento e Pós-processamento, são fundamentais para o sucesso
do KDD. A depender de como dados estão armazenados, transformações a serem realizadas, e
até mesmo da própria qualidade dos dados, a etapa de Pré-processamento, responsável por
lidar com estes, pode ocupar a maior parte do tempo do KDD (TAN; STEINBACH;
KUMAR, 2006). Da mesma forma, o tipo de resultado produzido na etapa de mineração pode
afetar o tempo de Pós-processamento na organização e representação do conhecimento
descoberto no processo.

A partir de (FAYYAD; SMYTH, 1996) e (FREITAS, 2002), KDD pode ser definido
como o processo de descobrir padrões novos, válidos, úteis e compreensíveis em base de
dados de maneira automática ou semi-automática. Quanto aos termos anteriores, 'dados',
'padrões', 'válidos', entende-se (REZENDE, 2005): dados, grandeza ou valor que quantifica ou
qualifica algo; padrões, abstração de um conjunto de dados sob uma linguagem descritiva
conceitual; válidos, que são aceitáveis a partir de limiares.

O KDD tem despertado o interesse em diversas áreas como no Marketing (tentando


descobrir o perfil de compra de clientes para lançar ofertas e promoções), na Medicina (ao se
9

tentar caracterizar doenças pelos seus sintomas), em operações financeiras (na análise de
fraudes e análise de pedido de crédito ao se categorizar um cliente como um provável bom ou
mau pagador) e na Web, sendo objeto de estudo de diversas pesquisas (DIAS, 2005).

O KDD, mais precisamente a MD, é interdisciplinar, ligada a diversas outros áreas


como Banco de Dados, Aprendizado de Máquina, Estatística, Recuperação de Informação,
Computação Paralela e Distribuída (REZENDE, 2005). Destas, as áreas de Banco de Dados,
com suas técnicas de gerenciamento, o Aprendizado de Máquina, com suas técnicas de
análise de dados, e a Estatística, com sua fundamentação teórica, são as áreas que mais têm
contribuído para a MD (ZHOU, 2003).

Figura 3.1: Mineração de Dados: intersecção de várias áreas (KAMPFF, 2009)

O KDD é um processo interativo e iterativo. Interatividade esta entre o usuário,


normalmente o especialista do domínio que está sendo aplicado o KDD, e os resultados de
cada etapa do processo. A iteratividade fica por conta das etapas que compõem o KDD.
Quanto às etapas, há na literatura uma diversidade de sugestões, entretanto, de modo geral
pode-se simplificar o processo às etapas de Pré-processamento, Mineração de Dados e Pós-
Processamento, detalhadas nas seções seguintes.

Figura 3.2: Etapas do KDD, adaptada de (REZENDE, 2005)


10

3.1 PRÉ-PROCESSAMENTO
Antes de iniciar-se a etapa de Pré-processamento em si, o processo de descoberta de
conhecimento parte, além da definição clara do problema a ser investigado, do estudo do
domínio que o problema está amparado. Para que cada etapa tenha sucesso, e de modo geral,
todo o processo, tal domínio é fundamental. Metas, critérios de desempenho e possíveis
restrições devem estar bem definidos antes de se iniciar o Pré-processamento (REZENDE,
2005).

O Pré-Processamento inicia-se com a integração dos dados, se for o caso de estarem


em fontes diversas. De posse dos dados, e baseando-se principalmente na etapa de Mineração,
são realizadas algumas operações sobre esses dados. Essas operações ocorrem por diversas
razões, como às relacionadas à capacidade de processamento das máquinas, afetando o tempo
do processo, as características dos algoritmos a serem usados, mas, sobretudo, os próprios
dados.

É comum os dados a serem usados estarem suscetíveis aos mais variados problemas:
dados incompletos, inconsistentes, ou com ruídos. Na constatação destes tipos de problema
deduz-se falhas ou erros nos sistemas responsáveis por estes dados, sendo então dada um
primeira contribuição do KDD, ao informar tais erros ou falhas aos responsáveis pelos
gerenciamento dos sistemas. Se os dados vierem de fontes diferentes, a possibilidades de
problemas aumenta ainda mais, pois podem conter informações redundantes (ou repetidas),
diferirem na definição do tipo de dado utilizado para as mesmas informações (booleano ou
inteiro), além de poderem estar armazenados sob diferentes formatos (diferentes tipos de
arquivos).

Dessa forma, as operações desta etapa visam prover uma melhor adaptação dos dados
às tarefas seguintes e aumentar a qualidade dos dados (TAN; STEINBACH; KUMAR, 2006).

FREITAS (2002) descreve algumas operações que podem ser realizadas: limpeza,
integração, transformação e redução.

Limpeza de dados, data cleaning, tem por objetivo corrigir erros nos dados,
removendo ruídos e duplicações, ou preenchendo valores de atributos nulos.

Integração de dados, data integration, tem por objetivo fazer a junção de dados
quando estes estão armazenados em locais distintos.

Transformação dos dados, data transformation, tem por objetivo colocar os dados no
padrão requerido para a fase de Mineração. Nesta pode-se realizar uma normalização
(modificação da escala dos valores de determinado atributo), discretização (transformação de
dados contínuos em discretos) ou categorização (principalmente transformar dados numéricos
para literais).
11

Redução dos dados, data reduction, tem por objetivo reduzir o tamanho do conjunto
de dados a fim de facilitar o processamento na MD, no entanto, que produza aos mesmos
resultados, ou com perdas irrelevantes.

A seleção de atributos objetiva também realizar uma redução nos dados, mas a nível
de atributos e não de registros. Nem todo atributo disponível pode será útil na investigação do
problema, atributos pessoais como RG (Registro Geral) e nomes são dispensáveis.

Como dito anteriormente, a etapa de Pré-processamento pode ser a mais trabalhosa,


sendo responsável pela maior parte do tempo investido no KDD. Entretanto, a fim de que se
possa obter os melhores resultados possíveis, tal investimento é fundamental para o sucesso
das demais etapas e no KDD como um todo.

3.2 PÓS-PROCESSAMENTO
A partir dos resultados obtidos na etapa anterior, MD, o usuário fará suas tomadas de
decisões. Porém, a quantidade de padrões gerados, normalmente, é grande e nem todos são
interessantes ou úteis ao usuário. Dessa forma, fazer tratamentos para que se possa oferecer
ao usuário apenas um conjunto reduzido de tais padrões é de fundamental importância.

Dentre os aspectos do Pós-processamento, a compreensibilidade de padrões é um dos


mais importantes para o KDD. A compreensibilidade está relacionada à capacidade humana
de interpretação. Em regras de associação, por exemplo, as regras são melhor compreendidas
quando são poucas e a quantidade de antecedentes nas regras são também poucos.

Além da compreensibilidade, existem outros qualificadores que são buscados nesta


etapa como a novidade e interesse de um padrão. No entanto, formas que possam mensurar a
novidade e interesse de um padrão não são triviais e não foram adotadas neste trabalho.

3.3 MINERAÇÃO DE DADOS


A MD, etapa do KDD localizada entre o Pré-processamento e o Pós-processamento, é
considerada a mais importante etapa de todo o processo, pois, é nesta que se localiza a maior
parte da complexidade do processo (os algoritmos) e por gerar os padrões a serem analisados
na próxima etapa.

A MD consiste na aplicação de algoritmos a um conjunto de dados, sob determinadas


condições computacionais, a fim de obter padrões. Quanto à forma de realização da
mineração, esta varia de acordo com o seu objetivo: descoberta ou verificação. A verificação
procura constatar determinadas hipóteses a cerca de um dado objeto a ser investigado. A
descoberta não parte de hipóteses e objetiva a descobertas de novas padrões. Essas duas
12

formas de abordagem da MD, verificação e descoberta, são conhecidas também como


abordagens top-down e bottom-up respectivamente.

Figura 3.3: Abordagens para Mineração de Dados (REZENDE, 2005)

3.3.1 TAREFAS DA MINERAÇÃO DE DADOS

Com a aplicabilidade da MD nas mais diversas áreas, os tipos de tarefas são diversos e
cada um gera um determinado tipo de padrão. Vê-se então, a necessidade de se deixar claro
qual o tipo de padrão a ser buscado para a devida escolha dos algoritmos a serem usados.

CLASSIFICAÇÃO

Dentre os diversos tipos de padrões, estão os padrões com poder preditivo. Saber se
um cliente atenderá ao esperado no lançamento de uma promoção ou oferta, diagnosticar
doenças a partir de alguns sintomas, prever se um cliente será um bom ou mau pagador em
um pedido de crédito são algumas das possíveis aplicações que podem ser utilizadas através
da tarefa de classificação.

A Figura 3.4 mostra um exemplo de um classificador sob árvore de decisão para


clientes que vão fazer pedido de crédito. Baseando-se apenas nos atributos grau de
escolaridade e renda, o classificador procura prever se um próximo cliente será um ruim, bom
ou excelente pagador. A verificação se inicia a partir da raiz da árvore e segue pelos demais
nós até atingir alguma das folhas, chegando ao resultado da classificação. Por exemplo, caso
um cliente tenha um nível de escolaridade bacharel e renda menor que 50, ele não é um
cliente confiável para se conceder um empréstimo. Já um doutor, independentemente da
renda, dificilmente será um ruim pagador.
13

Figura 3.4: Árvore de decisão para classificação de clientes (SOUZA, 2007)

Objetivando a máxima capacidade preditiva possível, a disposição dos atributos da


árvore não é fixa, podendo variar em caso de um outro conjunto de dados, ainda que com os
mesmos atributos. Isso se deve à alguns conceitos como Entropia e Ganho de Informação que
na geração da árvore julga quais atributos são mais representativos, podendo inclusive, julgar
algum atributo como não representativo para a classificação (SOUZA, 2007).

A tarefa de classificação consiste em prever o valor da classe (classe meta) de uma


dada instância por meio de outras instâncias com valores da mesma classe já conhecidos.
Essas instâncias são usadas para se criar um classificador em um procedimento chamado
treinamento.

Como dito anteriormente, o treinamento objetiva criar um classificador para novas


instâncias a partir de um conjunto de outras instâncias com os valores das classes já
conhecidas. A seleção desse conjunto para a criação do classificador pode ser feita de diversas
formas: selecionando todas as instâncias disponíveis para a criação do classificador e
aplicando as mesmas no classificador criado para validação; selecionando (aleatoriamente)
não todas as instâncias, mas sim um percentual para a criação do classificador, enquanto as
demais são utilizadas no classificador criado para validação; ou usando uma técnica chamada
validação cruzada, onde o conjunto de instâncias são divididas aleatoriamente em k partições,
onde cada partição é utilizada para validar o classificador gerado pelas demais, sendo a média
dos resultados (acurácia) da validação o resultado final (SOUZA, 2007). A acurácia é uma das
mais importantes métricas de qualidade do classificador e mede o seu grau de confiabilidade,
ou certeza.

A Figura 3.5 mostra um modelo de classificação de discentes quanto ao resultado em


uma disciplina usando árvore de decisão. Por exemplo, nesse modelo, caso o discente
entregue apenas uma atividade será reprovado. Caso entregue duas, terá de ter um
desempenho alto para ser aprovado.
14

Tabela 3.1: Tabela de desempenho de discentes em uma dada disciplina (KAMPFF, 2009)

Figura 3.5: Árvore de decisão para classificação de discentes quanto ao resultado em uma dada disciplina criada
a partir da Tabela 3.1 (KAMPFF, 2009)

Além da classificação sob a forma de árvore de decisão existem outras técnicas para a
realização da classificação baseadas em regras, redes neurais, estatísticas entre outras.
15

REGRESSÃO

A regressão é similar à classificação. Sua principal diferença diz respeito à natureza do


atributo a ser predito, em vez de ser discreto, como é na classificação, é contínuo (TAN;
STEINBACH; KUMAR, 2006) . A regressão busca dessa forma prever um valor, não uma
classe.

A forma com que a regressão tenta fazer essa predição é a partir da criação de uma
função que tem como variáveis os valores, numéricos, dos atributos (SOUZA, 2007).

CLUSTERIZAÇÃO

A clusterização, ou agrupamento, ter por objetivo agrupar dados com características


semelhantes, onde cada um desses grupos é chamado de cluster (LIMA, 2009).

A fim de se fazer esse particionamento, a clusterização baseia-se em alguns critérios


como homogeneidade e separação. A homogeneidade refere-se à similaridade entre dados em
um mesmo cluster. A separação refere-se o quão diferente são os dados de cluster diferentes.
Ainda para a geração de tais grupos são utilizadas algumas medidas de distância como a
nominal e a euclidiana (KAMPFF, 2009). A Figura 3.6 ilustra uma clusterização para
diferentes números de clusters usando como medida de distância a distância nominal.

Figura 3.6: Clusters baseados na Tabela 3.1, (KAMPFF, 2009)


16

ASSOCIAÇÃO

A associação tem por objetivo gerar regras que expressam relações entre atributos por
meio de suas frequências de ocorrências. Essas regras são do tipo A→B onde A e B são
conjuntos disjuntos e podem conter um ou mais elementos, diferentemente da classificação,
que tem de ter o consequente, B, unitário e cuja classe meta só pode aparecer neste lado da
regra (SANTOS , 2008).

Um exemplo clássico de aplicação de regras de associação está no comercio: saber se


um cliente ao adquirir um produto a tem a tendência de adquirir um outro produto b, pode ser
vantajoso para a empresa fazer modificações que podem ir desde alterações na organização
dos produtos no estabelecimento até alterações diretamente nos preços, passando por
elaboração de novas promoções, ofertas entre outras.

Atrelados a cada regra A→B estão os conceitos de confiança e suporte. Confiança


está relacionada com o número de vezes que A e B aparecem juntos e o número de vezes que
A aparece, junto ou não de B. Suporte relaciona o número de vezes em que A →B aparece
com o número de transações. Em termos estatísticos têm-se (AMO, 2004):

confiança de uma regra A → B: probabilidade condicional P (B | A), ou seja, é a


porcentagem de registros contendo os elementos de A que também contém os
elementos de B.

suporte de uma regra A → B: probabilidade P (A ∪ B ), onde A ∪ B indica que o


registro contém os elementos dos conjuntos A e B.

Cada um dos conceitos está associado a um limite mínimo de aceitação, cabendo ao


usuário defini-los. Com isso, a qualidade das regras geradas são garantidas e também acaba-se
diminuindo a quantidade de regras para serem analisadas na próxima etapa.

Observe que nem sempre uma regra com grande confiança implica ser uma boa regra,
pois é fundamental também que se tenha um bom suporte (definido pelo usuário), pois pode
ser o caso da regra se referir à casos específicos ou até mesmo único, que não deve ser
generalizadas, objetivo dos padrões descobertos na MD. A tarefa de associação é a utilizada
no presente trabalho.

3.3.2 TÉCNICAS DA MINERAÇÃO DE DADOS

É importante mencionar que os conceitos de tarefas e técnicas usadas na MD são


diferentes, apesar de alguns trabalhos na literatura tratarem como semelhantes. As tarefas são
responsáveis pelo tipo de informação que se deseja extrair. As técnicas especificam a forma
ou método para a realização da tarefa, sendo sua escolha guiada pelo objetivo a ser alcançado
com a mineração (LIMA, 2009).
17

Existem diversos tipos de técnicas, entre as mais populares estão regras e árvore de
decisão, estatísticas e redes neurais, quanto a esta, apesar de não gerar conhecimento
explícito, tem sido empregada em aplicações com algoritmos genéticos e lógica fuzzy
(REZENDE, 2005).

3.4 TRABALHOS RELACIONADOS


Existem diversos casos de aplicação de mineração de dados nas mais variadas áreas.
Quanto à área acadêmica, estes são mais reduzidos. Alguns trabalhos são a seguir
comentados:

O trabalho em (PASTA, 2011) teve por objetivo mostrar a aplicabilidade da


Mineração de Dados no ambiente de gestão educacional. Usando as técnicas de Associação,
Classificação e Clusterização, analisou o perfil dos ingressos e egressos de uma instituição de
ensino superior.

Buss (2011) também destaca a aplicabilidade da mineração de dados nas instituições


acadêmicas. Entretanto, o seu estudo de caso está nas características que identificam o perfil
dos discentes que evadem a instituição. Utilizou algoritmos de classificação.

Em (AMORIM; BARONE; MANSUR, 2008) utiliza-se os classificadores J48, SMO e


o Bayes Net para prever a evasão em cursos à distância. Foram consideradas informações
acadêmicas e financeiras dos discentes, O objetivo maior dos autores tinha um cunho
administrativo.

Kampff (2009) propõe uma arquitetura para sistemas de alertas em um ambiente


virtual de aprendizagem com alertas gerados a partir da mineração de dados e outros pré-
definidos. Utilizou dados de edições anteriores de uma mesma disciplina a distância, para
mineração e extração de regras de classificação, analisando para cada discente mais de
duzentos atributos. As regras geradas foram aplicadas para gerar os alertas durante o
acompanhamento de discentes em turmas em andamento. Ao final, comprovou que as
intervenções realizadas pelo docente, a partir dos alertas, direcionadas a grupos que
compartilhavam necessidades específicas, contribuíram para a melhoria dos índices de
aprovação e para redução dos índices de evasão dos alunos na disciplina acompanhada.

Em (MANHÃES et al., 2012) faz-se um estudo para identificação de fatores que


influenciam a evasão. Para tal, cria perfis para classificar os discentes quanto a obtenção de
sucesso ou não na conclusão de seus cursos. Escolheram o classificador Naive Bayes
(estatístico) depois de realizarem testes com outros cinco algoritmos de classificação, onde a
acurácia variou entre setenta e oitenta e seis por cento. Fez-se análises em âmbito geral de
uma universidade, dessa forma, não permitindo ter mais detalhes sobre as causas investigadas
a nível de departamentos ou cursos.
18

Dekker, Pechenizkiy e Vleeshouwers (2009) identificaram perfis de discentes de um


curso de graduação com risco de evasão, ainda no primeiro ano, a partir dos resultados de
algumas disciplinas. Foram feitos diversos experimentos com variados algoritmos de
classificação para se saber o de melhor desempenho.

Campello e Lins (2008) apresentaram uma metodologia para elaboração de estratégias


voltadas à resolução do problema de evasão e retenção de discentes em um curso de
graduação. Para isso, estruturou-se um modelo de agrupamento de discentes em clusters.
Como resultado gerou seis agrupamentos de discentes que diferiam exclusivamente em
termos de seu desempenho acadêmico.

A maior parte dos trabalhos aqui relatados lidam com o problema da evasão, e não
com retenção, apesar de serem relacionados. Em sua maior parte, estes trabalhos usaram em
seus estudos de caso dados de discentes em disciplinas específicas ou dados de discentes de
toda uma universidade, permitindo dessa forma emitir seus resultados apenas para estes casos.
Este trabalho usou dados , e desenvolveu uma ferramenta para trabalhar, a nível de curso, que
é mais útil e interessante para os seus coordenadores do que a nível disciplinas (muito
específico) ou a nível de universidade (muito generalizado). Poucos trabalhos usaram a tarefa
de Associação (usada neste trabalho), que permite a descoberta de relações mais diretas entre
os atributos usados no KDD, principalmente no que diz respeito ao desempenho em
disciplinas e as relações entre as mesmas, que são abordadas no presente trabalho.

3.5 DATA WAREHOUSING


O KDD não é substitutível para as demais possibilidades de análise de dados, mas sim
complementar, ou de outra forma, estas são completares ao KDD.

Data Warehousing é um processo que objetiva preparar e gerenciar os dados para uma
visão específica de um negócio a ser analisado, tendo como produto principal o Data
Warehouse, DW (REZENDE, 2005).

Com o DW pode-se realizar análises a partir de ferramentas OLAP, On-line Analytical


Processing . Entretanto, tais ferramentas são utilizadas apenas de forma top-down, isto é, as
consultas são direcionadas pelo usuário a partir de suas hipóteses acerca de um problema que
gostaria de comprovar. Dessa forma, essa abordagem permite que padrões possam passar
despercebidos pelo usuário, uma vez que o mesmo não pode imaginar todas as possíveis
relações existentes em uma grande quantidade de dados (REZENDE, 2005). Por isso, faz-se
necessária a utilização de processos como o KDD, que permite tanto uma análise top-down,
(que caracteriza a interatividade do processo) como uma análise bottom-up, que permite que o
computador analise os possíveis resultados do processo. Essa foi uma das principais
justificativas para este trabalho usar o KDD e não trabalhar com consultas OLAP. Entretanto,
como trabalho futuro deseja-se integrar à ferramenta desenvolvida neste trabalho a geração de
DW para análise em ferramentas OLAP.
19

4 APLICANDO O KDD

As etapas do KDD são seguidas na realização deste trabalho. O pré-processamento, a


mineração e o pós-processamento são a seguir detalhados para que se possa visualizar melhor
todo o processo realizado.

4.1 PRÉ-PROCESSAMENTO
Como dito na fundamentação teórica, o pré-processamento objetiva preparar os dados
para as etapas posteriores realizando operações como integração, redução, seleção, limpeza e
transformação dos dados (FREITAS, 2002).

Os dados utilizados, como dito anteriormente, dizem respeito ao desempenho


acadêmico dos discentes. A Figura 4.1 mostra um exemplo dos dados usados, que
corresponde a um histórico acadêmico de um discente.

Figura 4.1: Exemplo de histórico acadêmico de um discentes do BSI

Os históricos acadêmicos são emitidos todos de uma só vez, em um único arquivo


PDF (Portable Document Format), pelo Sistema Acadêmico, SIAC, da UFBA, não sendo
necessária a realização do procedimento de integração de dados.
20

Do arquivo contendo os históricos dos discentes, é feita a extração dos dados do


mesmo. Para o sucesso da realização da extração ressalta-se que o arquivo usado deve ter o
mesmo layout do arquivo mostrado na Figura 4.1, que é o atual emitido pelo SIAC. Para uso
em diferente tipos de arquivos novas adaptações devem ser realizadas.

A Figura 4.2 mostra o procedimento de carga dos dados realizada na ferramenta


desenvolvida, o UFBAMiner. Na aba Dados, o usuário deverá carregar os dados selecionando
sua fonte, que é o arquivo PDF contendo dados de desempenho dos discentes, emitidos pelo
sistema SIAC. O usuário será alertado que este procedimento, carga dos dados, poderá ser
demorado. Este procedimento faz a extração dos dados do arquivo e a persistência no banco
de dados levando em média cerca de 2 segundos para cada página do arquivo. Como um dos
trabalho futuros, deseja-se diminuir essa média.

Figura 4.2: Carga de dados, fase de pré-processamento

De posse dos dados adquiridos pela extração, são realizadas transformações para
armazenamento em um banco de dados. Para a realização deste armazenamento foi necessário
fazer a extração dos dados do arquivo gerado para o SGBD, Sistema Gerenciador de Banco de
Dados. A Figura 4.3 mostra o modelo criado para esse armazenamento e a Tabela 4.1
comenta alguns dos atributos utilizados.
21

Figura 4.3: Modelo criado para armazenamento de dados

Tabela 4.1: Atributos do modelo criado para armazenamento de dados


Tabela alu_alunos - Informações sobre discentes
Atributo Significado
alu_matricula código do discente
alu_nome nome
alu_data_nascimento data de nascimento
alu_nacionalidade nacionalidade
alu_naturalidade naturalidade
Tabela cur_cursos - Informações sobre cursos
Atributo Significado
cur_codigo código
cur_nome nome
Tabela dis_disciplinas - Informações sobre disciplinas
Atributo Significado
dis_codigo código
dis_nome nome
dis_carga_horaria carga horária
Tabela cd_curso_disciplina - Informações sobre disciplinas de um dado curso
Atributo Significado
cd_id_curso código do curso
cd_id_disciplina código da disciplina
cd_natureza natureza da disciplina no curso
Tabela ac_aluno_curso - Informações dos discentes no curso
Atributo Significado
ac_id_aluno código do discente
ac_id_curso código do curso
ac_ano_semestre_ingresso ano/semestre de ingresso
ac_forma_ingresso forma de ingresso
ac_ano_semestre_saida ano/semestre de saída
ac_forma_saida forma de saída
ac_ano_semestre_curriculo ano/semestre do currículo
ac_ano_semestre_periodo_equivalencia ano/semestre do período de equivalência
ac_coeficiente_rendimento coeficiente de rendimento
ac_carga_horaria_total carga horária total cumprida
Tabela adp_aluno_disciplina_periodo - Informações de resultados dos discentes
Atributo Significado
adp_periodo ano/semestre letivo
adp_id_aluno código do discente
adp_id_disciplina código da disciplina
adp_nota nota
adp_resultado resultado

Observe que nem todos os dados encontrados no histórico foram utilizados. Atributos
como número de RG, nome de pai, mãe e discente e outros irrelevantes para a pesquisa
realizada foram excluídos na extração pois não são úteis para o processo de descoberta de
conhecimento.

Além dos dados extraídos, é fundamental para a descoberta de melhores padrões a


derivação de outros atributos. Não existe nos dados iniciais informações acerca da carga
22

horária semestral, número de disciplinas inscritas, optativas ou obrigatórias, aprovadas,


reprovadas ou trancadas. Estes dados, no entanto, podem ser derivados dos originais. A
Tabela 4.2 mostra algumas das derivações realizadas, onde na primeira coluna estão os
atributos derivados e na segunda coluna estão os seus significados. A Figura 4.4 mostra o
modelo criado para esse armazenar essa derivações.

Tabela 4.2: Derivações de atributos a partir dos dados iniciais


Tabela sa_semestre_aluno – Derivação de Info. Semestrais
Atributo Significado
sa_semestre_aluno semestre do discente
sa_status_semestre status do discente no semestre: normal, trancado etc
sa_carga_horaria carga horária semestral inscrita
sa_coef_rendimento coeficiente de rendimento no semestre
sa_num_disc_inscr número de disciplinas inscritas no semestre
sa_num_disc_aprov número de disciplinas aprovadas no semestre
sa_num_disc_repr número de disciplinas reprovadas no semestre
sa_num_disc_tranc_reprov_falta número de disciplinas trancadas ou reprovadas por falta no semestre
sa_num_disc_obr número de disciplinas obrigatórias no semestre
sa_num_disc_opt número de disciplinas optativas no semestre
sa_num_disc_repr número de disciplinas em outras situações
Tabela sd_disciplina_aluno – Tabela com todas as disciplinas com resultados dos discente
Atributo Significado
MATA02DIS1 resultado da disciplina MATA02 quando o discente se inscreve pela 1ª vez
MATA02DIS2 resultado da disciplina MATA02 quando o discente se inscreve pela 2ª vez
MATA02DIS3 resultado da disciplina MATA02 quando o discente se inscreve pela 3ª vez
MATA37DIS1 resultado da disciplina MATA37 quando o discente se inscreve pela 1ª vez
MATA37DIS2 resultado da disciplina MATA37 quando o discente se inscreve pela 2ª vez
MATA39DIS1 resultado da disciplina MATA39 quando o discente se inscreve pela 1ª vez
MATA39DIS2 resultado da disciplina MATA39 quando o discente se inscreve pela 2ª vez
MATA42DIS1 resultado da disciplina MATA42 quando o discente se inscreve pela 1ª vez
MATA42DIS2 resultado da disciplina MATA42 quando o discente se inscreve pela 2ª vez
MATA68DIS1 resultado da disciplina MATA68 quando o discente se inscreve pela 1ª vez

Figura 4.4: Modelo criado para armazenamento de dados derivados


23

A Tabela sd_disciplina_aluno, mencionada na Tabela 4.2, foi criada em tempo de


execução, pois depende dos dados que só são disponíveis depois que o usuário faz a carga
inicial. Esta foi a forma usada para se poder analisar os resultados das disciplinas, que são
variáveis para cada curso e assim tornar a ferramenta proposta independentemente do curso
analisado. Da mesma forma foi criada a tabela sd_semestre_disciplinas mostrada na Figura
4.4.

Nem todos os atributos e também nem todos registros disponíveis são úteis para o
KDD. Cabe ao usuário dizer quais são e quais não são importantes para o processo, isto é,
cabe ao usuário fazer a seleção dos dados e atributos.

A Figura 4.5 mostra o procedimento de seleção realizada no UFBAMiner em que o


usuário tem a opção de não usar todos os dados disponível no arquivo, selecionando apenas a
faixa de dados que deseja por meio de um filtro de dados. Essa função é útil para os cursos
que são mais antigos, e que dessa forma tem muitos registros. Ainda na seleção, o usuário
indica quais tipos de informação ele deseja, ou não, utilizar na mineração. Por exemplo, no
estudo de caso, o atributo nacionalidade foi dispensado já que todos os discentes eram
brasileiros. Remover esses atributos é importante pois reduz o aparecimento de regras
"obvias".
24

Figura 4.5: Seleção de dados, fase de pré-processamento

Ainda no processo de pré-processamento, várias transformações foram necessárias. A


principal delas ocorreu devido a limitação do algoritmo de MD utilizado, que só trabalha com
dados literais (strings), o Apriori. Dessa forma, é necessário fazer transformações de dados
numéricos para literais. O usuário então, deve preencher os parâmetros para tais
transformações observando as características de seu curso para obter regras com mais
qualidade. A realização de transformação também é também demorada, normalmente o
mesmo tempo de carga, se não houve filtragem de dados.
25

A Figura 4.6 mostra parte da ferramenta usada para a transformação dos dados e a
Figura 4.7 mostra parte do modelo criado para armazenamento dos dados transformados
destacando alguns atributos que foram transformados.

Figura 4.6: Transformação de dados, fase de pré-processamento

Figura 4.7: Modelo criado para armazenamento de dados transformados

Uma vez que a etapa de pré-processamento tenha sido realizada, inicia-se a etapa da
MD.
26

4.2 MINERAÇÃO DE DADOS

Depois das operações realizadas na etapa de pré-processamento, os dados podem ser


minerados. Os resultados da Mineração são padrões que devem ser analisados na etapa de
pós-processamento, a fim de classificá-los como interessantes ou não para análise do
problema.

Não há uma tarefa ou técnica que possa resolver todo tipo de problema de MD. A
escolha depende do problema a ser analisado e das características (tipo, conteúdo e relação
entre registros) dos dados disponíveis, tendo vantagens e desvantagens (DIAS, 2005).

Dentre as tarefas, as de Classificação e Associação são as que mais se adequam ao


problema, uma vez que o objetivo final é saber se um discente será ou não retido. Entretanto,
devido às características dos dados do estudo de caso, a tarefa de Classificação não pode ser
realizada já que não existe ainda discentes retidos, que seriam necessários para a base de
treinamento. Além do mais, a Classificação se limita a definir apenas um atributo meta, sendo
neste caso inviável ao que aqui se deseja, análise de diversos atributos como “meta”,
principalmente disciplinas.

Dessa forma, a Associação é a tarefa usada neste trabalho, uma vez que não depende
apenas de um único atributo. Observou-se que a Associação simula possíveis resultados da
Classificação, porém, para todos os possíveis atributos, e não apenas para um único como na
Classificação.

Mais especificamente quanto à escolha da técnica, esta baseia-se nos dados


objetivando minimizarar o número de transformações no Pré-processamento. Pela Tabela 4.3,
as tarefas Descoberta de Regras de Associação e Árvores de Decisão são as que mais se
adaptam ao problema. Os dados transformados são categóricos, o tamanho dos registros com
atributos não nulos são variáveis e apresentam grande número de registro. Como a
classificação foi descartada, a técnica escolhida foi a Descoberta de Regras de Associação.

Tabela 4.3: Características de dados e técnicas apropriadas de MD (DIAS, 2005)


Característica Descrição Técnicas de Mineração de Dados

Descoberta de regras de associação


São campos que apresentam valores de um conjunto de possibilidades
Variáveis de categorias Árvores de decisão
Limitado e predeterminado.
São aquelas que podem ser somadas e ordenadas. Raciocínio baseado em casos (MBR)
Variáveis numéricas
Árvores de Decisão
Este pode ser um fator de decisão da técnica correta para uma aplicação
específica, uma vez que os métodos de mineração de dados variam na Árvores de decisão
Muitos campos por registro
capacidade de processar grandes números de campos de entrada.

Caso em que é desejado prever várias variáveis diferentes baseadas nos


Redes neurais
Variáveis dependentes múltiplas mesmos dados de entrada.

Apresentam dificuldades na maioria das técnicas de mineração de dados,


Descoberta de regras de associação
Registro de comprimento variável mas existem situações em que a transformação para registros de comprimento
fixo não é desejada.
Apresentam dificuldades para todas as técnicas e, geralmente, requerem Rede neural intervalar (time-delay)
Dados ordenados cronologicamente aumento dos dados de teste com marcas ou avisos, variáveis de diferença etc. Descoberta de regras de associação

A maioria das técnicas de mineração de dados é incapaz de manipular texto Raciocínio baseado em casos (MBR)
Texto sem formatação
sem formatação.
27

ALGORITMO

Para a tarefa de Associação e técnica de Descoberta de Regras de Associação existem


vários algoritmos. Entretanto, foi escolhida para este trabalho o algoritmo Apriori. O Apriori é
base para diversos outros algoritmos e é citado como o de melhor desempenho dentre os
algoritmos de associação (WU et al., 2007).

O Apriori (AGRAWAL; SRIKANT, 1994) é um algoritmo que trabalha sobre a


frequência de conjuntos de itens (itemset) em transações, ou registros. Dado um conjunto de
transações D armazenadas em um banco de dados, níveis α e β de confiança e suporte
mínimos, deseja-se todas regras possíveis.

De posse de todos os itemsets frequentes com relação a D e β, para obter-se as regras


de associação interessantes, basta considerar, para cada itemset frequente L, todas as regras
candidatas A → (L - A), onde A ⊂ L e testar para cada uma destas regras candidatas se o seu
grau de confiança atende o nível mínimo de confiança α (AMO, 2003).

A geração dos itemsets frequentes é basicamente realizada em duas etapas: geração e


poda de candidatos e o cálculo de suporte dos candidatos. O Apriori utiliza de uma
propriedade chamada Antimonotonia da relação ⊆, no qual, dado dois itemsets I e J , tais que
I ⊆ J, se J é frequente então I também é. Essa propriedade é usada na geração e poda de
candidatos (AMO, 2003).

Este algoritmo funciona de forma iterativa, onde para cada iteração, a geração de
itemsets frequentes dependem do conjunto de itemsets frequentes já conhecidos até a iteração
anterior. De modo mais simples, para a descoberta de itemsets frequentes de tamanho k
(iteração k) os itemsets frequentes de tamanho k-1 já foram descobertos no passo anterior
(iteração k-1), estes por sua vez, descobertos a partir dos itemsets frequentes de tamanho k-2
(iteração k-2), e assim por diante.

Geração e poda de candidatos

Assumindo que se está na iteração k, e que portanto já existam os itemsets frequentes


até a iteração k-1, conjunto Lk-1, a geração e poda de candidatos e o cálculo de suporte dos
candidatos ocorrem na seguinte forma:

Busca-se o conjunto de candidatos, Ck, para serem itemsets frequentes, de tamanho k,


iteração k, a partir dos itemsets já conhecidos de tamanho k-1, Lk-1.

O conjunto Ck de itemsets candidatos é formado juntando-se partes de itemsets de


tamanho k-1 que tenham k-2 elementos em comum. Desta maneira tem-se certeza de obter um
itemset de tamanho k onde pelo menos dois de seus subconjuntos de tamanho k-1 são
frequentes. A Figura 4.8 procura ilustrar melhor esse processo.
28

Figura 4.8: Construção de um k-itemset candidato a partir de dois frequentes de tamanho k-1 (AMO,
2003)

Parte da função mostrada na Figura 4.9, destacada em azul, descreve a construção


destes candidatos.

Figura 4.9: Função para geração de candidatos à itemsets frequentes

De posse destes candidatos, é verificado se eles atendem a propriedade Antimonotonia


da relação ⊆, caso não atendam são retirados de Ck :

Ck = Ck − {I | existe J ⊆ I tal que | J |= k-1 e J ∈ Lk-1}.

Para esclarecer melhor esta etapa considere o exemplo (AMO, 2003): suponha que se
está iniciando a iteração 3 do Apriori, e que dessa forma o conjunto de itemsets frequente de
tamanho 2, L2, já foi descoberto. Seja:

L2 = {{1, 3}, {1, 5}, {1, 4}, {2, 3}, {3, 4}, {2, 4}}

Então o conjunto C3 será:

C3 = {{1, 3, 5}, {1, 3, 4}, {1, 4, 5}, {2, 3, 4}}

Pela propriedade Antimonotonia da relação ⊆ tem-se:

C3 = C3 - {{1, 4, 5}, {1, 3, 5}} = {{1, 3, 4}, {2, 3, 4}.


29

Os itemsets {4,5} e {3,5} não são frequentes.

Este último passo pode ser visto na Figura 4.6, destacada em laranja.

Cálculo de suporte dos candidatos

Os candidatos agora são verificados para saber se atendem o suporte mínimo


estabelecido. Essa verificação é feita contando o número de ocorrências em cada uma das
transações, ou registros, no banco de dados. O procedimento da Figura 4.10 ilustra essa etapa,
todo o Apriori pode ser visto nas Figuras 4.10 e 4.9.

Figura 4.10: Cálculo do suporte dos candidatos à itemsets frequentes

Alguns parâmetros para execução do Apriori foram definidos a fim de obter regras que
garantam uma qualidade mínima. Dos mais importantes parâmetros estão a confiança mínima
e o suporte mínimo, definidos para 80% e 10% respectivamente. A fim de que possa
investigar melhor algumas regras geradas, tais valores podem ser, e em algumas casos foram,
alterados.

4.3 PÓS-PROCESSAMENTO
Apesar da Mineração de Dados filtrar algumas de suas regras descobertas a partir da
confiança e do suporte definidos pelo usuário, a quantidade de regras ainda pode ser grande,
tornando-se difícil para o usuário fazer a análise de quais são relevantes. Dessa forma apenas
regras com no máximo três antecedentes foram analisadas.
30

5 ESTUDO DE CASO

Este trabalho tem por objetivo analisar a retenção de discentes em um curso de


graduação por meio do KDD usando informações de desempenho acadêmico dos discentes.
Para tal, usou como estudo de caso o Bacharelado em Sistemas de Informação, BSI, da
UFBA.

5.1 O CURSO
O curso de BSI foi criado em 2010 e espera ter sua primeira turma de formandos no
segundo semestre de 2014. Dessa forma, a retenção a ser analisada ocorre até a metade do
curso. Entretanto, sabe-se que o que pode causar, ou contribuir, para retenção é,
principalmente, reprovações em disciplinas. Principalmente, pois, existem outros fatores
como um baixo número de disciplinas inscritas, indisponibilidade de disciplinas semestrais,
isto é, disciplinas oferecidas apenas anualmente, organização das disciplinas e seus pré-
requisitos (fluxograma do curso) entre outros. Dessa forma, o maior interesse deste trabalho
está, principalmente, em analisar resultados que implicam ou envolvam reprovações nas
disciplinas com o intuito de evitar evasões futuras para este curso. É importante detectar o
problema para que na próxima turma seja possível ajustá-lo, evitando assim altos índices de
evasão.

5.2 APLICANDO O KDD


As etapas do KDD são seguidas no estudo de caso. Alguns procedimentos para a
realização do pré-processamento, mineração o pós-processamento são a seguir detalhados .

5.2.1 PRÉ-PROCESSAMENTO

Não foi necessária a realização de limpeza nos dados, mas sim vários tratamentos na
extração dos mesmos. O arquivo de históricos contém, por exemplo, registros de inscrição nas
disciplinas dos discentes no semestre atual, ou seja, disciplinas em curso que não possuem
ainda resultados. Alguns outros registros também não continham, para uma única disciplina
específica, as notas dos discentes em um dado semestre. Tais registros foram dispensados no
momento da extração. A Figura 5.1 mostra a ocorrência destes problemas
31

Figura 5.1: Histórico de discente com alguns problemas

Como dito anteriormente, o curso de BSI é ainda novo, e teve até agora apenas três
turmas, ingressantes nos anos de 2010, 2011 e 2012, visto que o curso é anual. Os dados
iniciais (do arquivo PDF) continham registros de 168 discentes. No entanto, dentre esses
discentes estão alguns que tiveram sua classificação no vestibular cancelada. Estes pediram
aproveitamento de disciplinas que já haviam cursados em outras instituições acima do
permitido pela UFBA (30%), como foi negado, estes desistiram de cursar BSI, sendo então
removidos do conjunto de dados a serem usados no processo de descoberta de conhecimento.
Foram removidos ainda os discentes que apresentaram um coeficiente de rendimento igual a
zero ou que tinham uma carga horária total também igual a zero. Esta medida foi usada pois
acredita-se que tais discentes que não foram aprovados em pelo menos uma disciplina, não
chegaram a ter um comprometimento, ainda que mínimo, com o curso. Do total de discentes
iniciais, 168, estes foram reduzidos a 118 discentes. Essas exclusões visam ter uma melhor
qualidade nos dados, o que acaba por refletir nos padrões descobertos no processo.

Ainda devido ao curso de BSI ser novo, só existe registros de disciplinas até o 5º
semestre. Então regras envolvendo disciplinas a partir do 6º semestre, não podem ocorrer. A
Figura 5.2 apresenta o fluxograma de BSI e a barra separa os semestre analisados neste
trabalho.
32

Figura 5.2: Fluxograma do curso de BSI. Dados com registros de disciplinas até o 5º semestre, à esquerda da
barra divisória
33

Essas informações sobre os dados usados no processo são importantes, tanto para uma
correta análise dos padrões descobertos, como para entender a capacidade/possibilidade de
geração de outros padrões.

Quanto à seleção de atributos, alguns foram excluídos do processo pois acabavam


gerando regras óbvias e em grande quantidade. Tais atributos foram:

1) Relacionados ao discente:

a) Nacionalidade: todos os discentes são brasileiros;

b) Naturalidade: a maioria dos discentes são naturais da Bahia;

c) Idade: variada faixa etária.

2) Relacionados ao discente no curso:

a) Forma de ingresso: a maior parte dos ingressantes veio pelo vestibular;

b) Forma de saída: curso novo, sem discentes diplomados;

c) Ano e semestre de ingresso: apenas 3 anos;

d) Ano e semestre de saída: curso novo, sem discentes diplomados;

e) Ano e semestre de currículo e período equivalente: curso ainda sem


alteração curricular.

3) Relacionados à disciplinas:

a) Número de disciplinas obrigatórias: até o momento da realização do KDD


o curso só tinha oferecido disciplinas obrigatórias;

b) Número de disciplinas optativas: até o momento da realização do KDD o


curso só tinha oferecido disciplinas obrigatórias;

c) MATA68, MATA39 e MAT92: disciplinas com grande número de


aprovações.

Ainda na fase de pré-processamento, e baseando-se na próxima etapa de MD foi feita a


transformação dos dados. Os valores a serem transformados são descritos na Tabela 5.1.
34

Tabela 5.1: Transformações dos dados iniciais


Valor original Valor transformado
Coeficiente de rendimento
9.0 – 10 EXCELENTE
7.0 – 8.9 BOM
5.0 – 6.9 REGULAR
3.0 – 4.9 RUIM
0.0 – 2.9 PÉSSIMO
Carga horária total
3000 – 3999 ALTA
2000 – 2999 ALTA-MÉDIA
1000 – 1999 MÉDIA
500 – 999 BAIXA-MÉDIA
0 – 499 BAIXA
Nota – resultado
5.0 – 10.0 APROVADO
0.0 – 4.9 REPROVADO
Coeficiente de rendimento semestral
9.0 – 10 EXCELENTE
7.0 – 8.9 BOM
5.0 – 6.9 REGULAR
3.0 – 4.9 RUIM
0.0 – 2.9 PÉSSIMO
Carga horária semestral
401 – 600 ALTA
151 – 400 MÉDIA
0 – 150 BAIXA
Número de disciplinas inscritas
6 – 10 GRANDE
4–5 MÉDIO
1–3 BAIXO
Número de disciplinas aprovadas
0.8 – 1.0 GRANDE
0.5 – 08 MÉDIO
0.1 – 0.5 BAIXO
Número de disciplinas reprovadas
0.3 – 1.0 GRANDE
0.0 – 0.3 BAIXO
Número de disciplinas trancadas ou reprovadas por falta
0.3 – 1.0 GRANDE
0.0 – 0.3 BAIXO

5.2.2 MINERAÇÃO DE DADOS

Para a mineração foram definidos os valores de 80% e 10% para a confiança e suporte
respectivamente. O número de regras pode definido como parâmetro na mineração, e neste foi
definido um número grande, acima de 1000 para se garantir que todas as regras que
atendessem até o valores mínimos para a confiança e suporte pudessem aparecer.

5.2.3 PÓS-PROCESSAMENTO

A iteratividade e interação do processo podem ser visto claramente nessa fase. O


usuário ao perceber que estão ocorrendo regras óbvias relacionada à um atributo específico
volta para a fase de pré-processamento e o exclui da seleção para a mineração. A maior parte
dos atributos excluídos para a mineração na etapa anterior ocorreu a partir de tais
constatações.
35

Apesar da Mineração de Dados filtrar algumas de suas regras descobertas a partir da


acurácia e do suporte definidos pelo usuário, a quantidade de regras ainda pode ser grande,
tornando-se difícil para o usuário fazer a análise de quais são relevantes. Dessa forma, apenas
as regras que tenham no máximo três atributos no antecedente foram analisadas.

Nesta etapa, as regras descobertas na MD foram analisadas. Foi necessário verificar


quais regras são "próximas" ao problema investigado, isto é, o quão fortemente relacionadas
ao problema investigado estão estas regras. Baseando-se nisso, foram categorizadas as regras
em regras periféricas e regras centrais, desprezando-se regras que definitivamente estavam
"longe" do problema analisado.

RESULTADOS PERIFÉRICOS

Na etapa de mineração de dados surgiram algumas regras que, apesar de não estarem
diretamente relacionadas com o problema analisado, podem ser úteis para um melhor
entendimento dos próprios resultados. Estas regras relacionam disciplinas e o desempenho
semestral dos discentes, mas, principalmente, resultados das disciplinas entre si.

a) REGRAS PERIFÉRICAS ENVOLVENDO ATRIBUTOS SEMESTRAIS E GERAIS


DOS DISCENTES

Algumas dessas regras descobertas envolvendo atributos semestrais foram:

Figura 5.3: Listagem 1 das regras periféricas envolvendo atributos semestrais e gerais dos discentes

Nas regras da Figura 5.3 percebe-se a relevância de MATA02, Cálculo A e MATA42,


Matemática Discreta I, como indicadores de desempenho semestral do discente. Pela regra 1,
observa-se que a aprovação do discente em MATA02 na primeira tentativa resulta em um
número de disciplinas aprovadas grande1, com uma confiança acima de 90%. Com resultado
semelhante tem-se a disciplina MATA42, na regra 2. Na regra 3, com uma confiança de
100%, os discentes que foram aprovados em ambas disciplinas, MATA02 e MATA42 no
primeiro semestre, tiveram um número de disciplinas aprovadas grande, isto é, todos os
discentes que foram aprovados em ambas disciplinas tiveram, no mínimo, 80% de suas
disciplina aprovadas naquele semestre.

As regras da Figura 5.4 incrementam a relevância de MATA02 e MATA42 como bons


indicadores de desempenho:
1Grande corresponde aos valores numéricos transformados para literais conforma explicado anteriormente na
Tabela 5;3. Neste caso, acima de 80%.
36

Figura 5.4: Listagem 2 das regras periféricas envolvendo atributos semestrais e gerais dos discentes

As regras 4 e 5 refletem que um coeficiente de rendimento considerado BOM 1


implicam aprovação em Cálculo A (MATA02) e Matemática Discreta I (MATA42). A regra 6
mostra como um desempenho ruim em MATA02 reflete no coeficiente de rendimento do
discente 2.

b) REGRAS PERIFÉRICAS ENVOLVENDO DISCIPLINAS ENTRE SI

Em maior número de regras descobertas (em função da quantidade de disciplinas),


surgiram regras tendo como atributos apenas disciplinas, gerando regras do tipo "Se
APROVADO em Disciplina A então APROVADO em B". Ainda sendo estas regras, regras
periféricas ao problema deste trabalho que é a retenção, estas regras auxiliam em uma melhor
visualização e entendimento dos atributos que envolve o problema avaliado.

c) SENTIDO DAS REGRAS

Devido às circunstâncias do curso de BSI, novo e ainda sem uma turma de egressos, as
regras aqui citadas normalmente "apontam" para trás, isto é, o consequente da regra ocorre
antes do antecedente. Para o curso de BSI, por exemplo, foram descobertas as regras da
Figura 5.5:

Figura 5.5: Listagem 1 das regras periféricas envolvendo disciplinas entre si

Na regra 1, os discentes que foram aprovados em MATA07, Álgebra Linear,


disciplina do 3º semestre, também foram aprovado em MATA68, Computador, Ética e
Sociedade, disciplina do 1º semestre, com a confiança de 81%. Essa informação no entanto,
não é tão relevante já que remete ao passado do discente, não tendo um caráter preditivo. Vale
ressaltar que MATA07 não tem como pré-requisito MATA68.

1BOM corresponde aos valores numéricos transformados para literais conforma explicado anteriormente na
Tabela 5;3. Neste caso, entre 7.0 e 8.9.

2
RUIM corresponde aos valores numéricos transformados para literais conforma explicado anteriormente na
Tabela 5;3. Neste caso, entre 3.0 e 4.9. Por outras regras descobriu-se que ADM001 era considerada um
disciplina fácil pelo grande número de aprovações.
37

Na regra 2, todos os discentes que foram aprovados em MATC73, disciplina do 2º


semestre, foram aprovado em MATC92, disciplina também do 2º semestre. Apesar da regra
não remeter ao passado, ela também não remete ao futuro, ou seja, considera que 100% dos
discentes que forma aprovados em MATC73, Introdução à Lógica Matemática, foram
aprovados em MATC92, Fundamentos de Sistemas de Informação.

Como dito anteriormente, essa regras (que apontam para trás) ocorrem devido às
características dos dados aqui usados. Para cursos mais antigos, espera-se que regra com
caráter preditivo apareçam, pois com o passar do tempo, a diferença quantitativa de
ocorrências de resultados nas disciplinas tende a diminuir.

Apesar do improvável surgimento de regras com poder preditivo para os dados do


curso de BSI, surgiram algumas regras desse tipo:

Figura 5.6: Listagem 2 das regras periféricas envolvendo disciplinas entre si

Pelas regras da Figura 5.6, se o discente for aprovado em MATD04, Estrutura de


Dados, disciplina do 2º semestre, então ele também será em MATC94, Introdução a
Linguagens Formais e Teoria da Computação, MATA55, Programação Orientada a Objetos, e
MATA07, Álgebra Linear, disciplinas do 3º semestre, com a confiança média de 85%. A
Figura 5.7 exibe melhor essas regras a partir da reprodução parcial do fluxograma do curso, e
as disciplinas aqui relatadas.

Figura 5.7: Aprovação em Estrutura de Dados implica aprovação em Programação Orientada a Objetos,
Introdução a Ling. Formais e Teo. Comp. e Álgebra Linear, com confiança a partir de 80%

Este tipo de resultado, "Se APROVADO em Disciplina A então APROVADO em B",


foi aqui considerado periférico devido à quase totalidade das regras não terem um caráter
preditivo. Entretanto, esse tipo de regra pode ser útil ao problema de retenção, se os pré-
38

requisito forem analisados. Por exemplo, se houvesse uma regra em que a aprovação de uma
disciplina 'A' implicaria aprovação de uma disciplina 'B' (sempre atendendo às métricas), caso
um discente fosse aprovado em A, se B exigisse um pré-requisito que este discente não
possui, este pré-requisito poderia ser contestado. Claro, partindo apenas dos resultados, sem
considerar a importância metodológica de ensino da disciplina a ser quebrada o pré-requisito,
que é fundamental para a qualidade de aprendizagem do discente.

RESULTADOS CENTRAIS

Foram considerados resultados centrais aqueles que são mais próximos ao problema
da retenção. E como comentado anteriormente, as causas que levam à retenção estão
relacionadas à reprovações nas disciplinas e suas consequências.

A partir das análises das regras descobertas na etapa de mineração de dados, os


principais resultados foram relacionados ao seguinte conjunto de disciplinas: MATA02,
Cálculo A, MATA42, Matemática Discreta I, MATA37, Introdução à Lógica de Programação
e MATC90, Circuitos Digitais e Arquitetura de Computadores. Sendo as três primeiras
pertencentes ao 1º semestre e a última pertencente ao 2º semestre.

Foi observado que estas disciplinas são fortemente relacionadas entre si, baseando-se
nos resultados dos discentes, e que são também "norteadoras" quanto ao desempenho do
discente, isto é, os resultados do discente em tais disciplinas implicam em resultados
semelhantes quanto ao desempenho semestral e geral do discente.

a) REGRAS CENTRAIS ENVOLVENDO ATRIBUTOS SEMESTRAIS E GERAIS


DOS DISCENTES

Algumas dessas regras envolvendo atributos semestrais foram:

Figura 5.8: Listagem 1 das regras centrais envolvendo atributos semestrais e gerais dos discentes

Na regra 1 observa-se como a reprovação em MATA02 reflete no coeficiente de


rendimento do discente, sendo este ruim1.

Por algumas outras regras, foi constatado que MATA37 , baseando em seus
resultados, tem um nível de dificuldade um pouco acima do regular. Dessa forma, pela regra
2, vê-se como a disciplina MATC90 é um forte indicador de desempenho do discente, onde a
sua reprovação implica coeficiente de rendimento ruim com a confiança informada.

1
Por outras regras descobriu-se que ADM001 era considerada uma disciplina “fácil” pelo grande número de
aprovação na mesma.
39

Envolvendo atributos semestrais, nas regras da Figura 5.9 percebe-se como as


disciplinas MATA02, MATA37, MATA42 e MATC90 são fortes indicadores de
desempenho semestral.

Figura 5.9: Listagem 2 das regras centrais envolvendo atributos semestrais e gerais dos discentes

Na regra 3, caso o discente seja reprovado por falta em MATA02, o número


disciplinas trancadas ou reprovadas por falta no semestre em que o discente se inscreveu em
MATA02 será grande (grande, aqui considerada a partir de 50% do número de disciplinas
inscritas), com a confiança informada.

De modo semelhante à regra 3, na regra 4, caso o discente seja reprovado em


MATC90, o número disciplinas reprovadas no semestre em que o discente se inscreveu em
MATC90 será grande (grande, aqui considerada a partir de 50% do número de disciplinas
inscritas), com a confiança informada.

Nas regras 5 e 6 têm-se o mesmo tipo de resultado, ou seja, reprovação em alguma das
disciplinas citadas resultam num número grande de reprovações naquele mesmo semestre em
que se inscreveram.

Vale notar que, como dito anteriormente, MATA42 e MATA37 são disciplinas do 1º
semestre. No entanto, as regras 5 e 6 dizem respeito aos resultados dos discentes nestas
disciplinas só que na segunda vez em que se inscreveram (final da disciplina termina com
'DIS2'), o que quer dizer que tais discentes cursaram estas disciplinas a partir do 2º semestre,
mais provavelmente no 2º semestre. Foi descoberto entretanto, que quando o discente é
reprovado nessa disciplinas, MATA42 e MATA37 (no segundo semestre) são também
também reprovados em MATC90 com uma confiança considerável. Essa análise é melhor
detalhada no tópico seguinte.

b) REGRAS CENTRAIS ENVOLVENDO DISCIPLINAS ENTRE SI

Como dito anteriormente, a partir das análises das descobertas, os principais


resultados foram relacionados às disciplinas MATA02, MATA42, MATA37 e MATC90. Foi
observado que estas disciplinas são fortemente relacionadas entre si quanto aos seus
resultados. A Figura 5.10 mostra algumas das regras geradas.
40

Figura 5.10: Listagem das regras centrais envolvendo disciplinas entre si

Na regra 1, todo o discente que foi reprovado por falta em MATA02 e reprovado em
MATA37 foi reprovado por falta em MATA42. Na regra 2 esse relacionamento entre
MATA02 e MATA42 é ainda mais nítido. As regras 3, 4 e 5 incrementam a visualização
dessa relação. Sobre a disciplina MATA37 mais precisamente, aparecem as últimas regras, 6
e 7, que relacionam MATA37 à MATA42.

Pelas regras acima, observa-se facilmente como as disciplinas estão relacionadas


quanto aos seus resultados. MATA02 mais relacionada com MATA42, e esta mais
relacionada com MATA37. A Figura 5.11 procura visualizar melhor as informações aqui
descobertas.

Figura 5.11: Relações de resultados entre as disciplinas Introdução à Lógica de Programação, MATA37 e
Matemática Discreta I, MATA42, e entre esta e Cálculo A, MATA02
41

c) MATC90

A partir de um número considerável de regras, foram descobertas informações


importantes acerca da disciplina MATC90, disciplina do 2º semestre. Percebeu-se que quando
o discente é reprovado em MATA42, MATA37 ou MATA02, ao repeti-las no próximo
semestre e se inscrevendo também em MATC90, que não é pré-requisito das anteriores, caso
o discente seja reprovado em alguma das anteriores, ou em duas para alguns casos, será
também reprovado em MATC90, com uma confiança a partir de 80%. Dessa forma, faz-se a
sugestão de recomendar ao discente só se inscrever em MATC90, caso aprovado nas
disciplinas anteriores, MATA42, MATA37 e MATA02. Apesar desta sugestão ir de encontro
ao problema que se está analisando, retenção, acredita-se que isso pode ser relevante ao
desempenho do discente em sua vida acadêmica. Algumas regras são listadas na Figura 5.12.

Figura 5.12: Listagem das regras envolvendo a disciplinas MATC90

Em 1, vê-se claramente a relação de MATA37 com MATC90. O discente que foi


reprovado em MATA37 (pela segunda vez) será reprovado em MATC90 com confiança de
82%. Se na primeira vez em que o discente se inscreveu em MATA37 foi reprovado, não por
falta, essa confiança é ainda maior, 92%, regra 2.

Na regra 3 têm-se a relação de resultados entre MATA42 e MATC90. Quando


reprovado na segunda vez que se inscreveu em MATA42, tendo sido reprovado por falta na
primeira, o discente será reprovado em MATC90 com uma confiança acima de 80%. As
demais regras incrementam a visualização dos relacionamentos entre MATA42 e MATC90.
Nas duas últimas regras, MATA02 é também relacionada a MATC90, só que de modo mais
discreto se comparado à MATA42, e ainda mais se comparada à MATA37. A Figura 5.13
mostrar melhor as regras aqui discutidas, destacando o nível de relacionamento entre as
disciplinas MATA37, MATA42 e MATA02 com MATC90.
42

Figura 5.13: Relações de resultados entre as disciplinas Introdução à Lógica de Programação, MATA37,
Matemática Discreta I, MATA42, Cálculo A, MATA02 com Circuitos Digitais e Arq. Computadores, MATC90

d) MATA42

Observou-se um grande número de regras envolvendo a disciplina MATA42 quando


reprovados apenas, ou reprovados por falta. Entretanto, estas regras apareceram em maior
número e com maior confiança no primeiro ano do curso, 2010, diminuindo nos demais,
implicando diminuição das ocorrências anteriores, reprovação, por falta ou não. Visualizando
os dados percebe-se essa diminuição. Dessa forma, o tratamento dado para essa disciplina no
decorrer destes anos poderia ser também aplicado para as demais disciplinas, quando possível,
dessa forma diminuindo causas que possam contribuir para a retenção dos discentes.

Figura 5.14: Desempenho dos discentes em MATA42 nos anos de 2010, 2011 e 2012
43

e) DISCURSÕES E SUGESTÕES

Através das análises aqui realizadas, observou-se que MATA02, MATA37, MATA42
e MATC90 são disciplinas norteadoras para o curso de BSI, onde o desempenho do discente
nestas acabam por refletir o seu desempenho em sua vida acadêmica.

Algumas sugestões podem ser elencadas a partir deste trabalho:

• A disciplina MATA02, Cálculo A, que é pré-requisito obrigatório para MAT236,


Métodos Estatísticos (disciplina do quarto semestre), poderia ser deslocada para
semestres posteriores com o intuito de minimizar a concentração das disciplinas
norteadoras do primeiro semestre.

• Atualmente a disciplina MATC90 não tem como pré-requisito obrigatório as


disciplinas MATA02, MATA37 ou MATA42. Entretanto, a partir das regras
descobriu-se que caso o discentes seja reprovado em qualquer uma destas (pela
segunda vez), o discente tem grande chance de ser reprovado em MATC90 caso tenha
se matriculado. Essa informação têm maior confiança em ordem para MATA37,
MATA42 e MATA02. Dessa forma, caso o discente seja reprovado em uma dessas
disciplinas não se recomenda matricular-se na que foi reprovado juntamente com
MATC90, ainda que esta não tenha tais disciplinas como pré-requisitos obrigatórios.

Especificamente quanto ao comportamento da disciplina MATA42 em 2010, 2011 e


2012, as informações foram levadas ao colegiado do BSI onde o mesmo informou que houve
um problema específico em 2010 e que foi resolvido para os anos seguintes.
44

6 CONCLUSÃO

Um dos grande desafios enfrentados no meio acadêmico brasileiro, já há muito tempo,


é o problema da retenção e evasão de discentes. O próprio MEC, por meio INEP, chega a
dizer que os índices de evasão em alguns casos atingem níveis alarmantes. No âmbito federal,
o governo, por meio do REUNI, objetiva elevar o índice de conclusão para noventa por
cento, lançando dessa forma um grande desafio para as universidades. Quanto à UFBA, esse
índice não chega a setenta por cento, gerando dessa forma uma preocupação por parte da
universidade.

A Mineração de Dados surge num contexto em que a quantidade de dados gerados


pela informatização das organizações constitui-se num grande problema, tornando-se difícil
analisar as informações atreladas a tais dados, impossível à capacidade humana. No entanto, a
partir desses dados, a Mineração de Dados pode auxiliar no processo de tomada de decisão
auxiliando o seu usuário na descoberta de conhecimento.

Este trabalho fez análises de retenção de discentes do BSI através do Apriori usando
registros de desempenho acadêmico. Devido às características dos dados utilizados, tais
análises foram feitas de modo direto, não quanto à retenção em si, mas sim, quanto à fatores
que possam levar a tal ocorrência, a partir dos dados de desempenho acadêmico, e de modo
especial, pelo desempenho em disciplinas.

Foi desenvolvida a ferramenta UFBAMiner para a realização das etapas do KDD. Essa
ferramenta pode ser utilizada para qualquer curso da UFBA, desde que use como fonte de
dados o arquivo de histórico emitido pelo SIAC.

Análises mostraram que existem disciplinas que são norteadoras para o desempenho
dos discentes em sua vida acadêmica. Algumas disciplinas foram particularmente analisadas
gerando para às mesmas sugestões para um melhor aproveitamento e desempenho por parte
dos discentes.

6.1 TRABALHOS FUTUROS


Este trabalho é aberto para diversos outros trabalhos futuros:

• Realizar novas análises para cursos mais antigos, tais como o Bacharelado em Ciência
da Computação;
45

• Realizar análises sobre evasão;

• Melhorar o tempo de carga e transformação dos dados gastos no processo;

• Adicionar novos algoritmos;

• Melhorar a usabilidade da ferramenta desenvolvida;

• Adicionar ao UFBAMiner ferramentas de visualização de dados;

• Modelar os dados para criação de DW para uso em ferramentas OLAP;

• Usar, ou replicar, dados diretamente do SIAC;

• Com os dados disponíveis, tornar o UFBAMiner hierárquico, onde coordenadores,


diretores de departamentos, chefes de institutos e outros teriam acesso à nível de sua
atuação;

• Incrementar os dados atuais com dados sócio-ecnonômicos, de avaliações de docentes,


institucionais e outros.
46

REFERÊNCIAS

AGRAWAL, R.; SRIKANT, R. Fast Algorithms for Mining Association Rules. In Procedings Of The
20th International Conference On Very Large Databases, Santiago, Chile, 1994.

AMO, S. de. Técnicas de mineração de dados. XXIV Congresso da Sociedade Brasileira de


Computação. Jornada de Atualização em Informatica, Salvador, Brasil, 2004.

AMORIN, M. J.; BARONE, D.; MANSUR, A. U. Técnicas de Aprendizado de Máquina Aplicadas na


Previsão de Evasão Acadêmica . XIX Simpósio Brasileiro de Informática na Educação, Fortaleza,
Brasil, 2008.

BRASIL, 2007. Decreto n° 6.096, de 24 de abril de 2007. Institui o Programa de Apoio a Planos de
Reestruturação e Expansão das Universidades Federais – REUNI. Presidência da República. Brasília,
DF: Diário Oficial da União de 25.04.2007. Disponível em <
http://www.planalto.gov.br/ccivil_03/_ato2007-2010/2007/decreto/d6096.htm > Acesso em 04 de
Abril de 2013.

BUSS, D. Utilização de técnicas de inteligência de negócios para descoberta de conhecimento em


bases de dados acadêmicas . Trabalho de Conclusão de Curso. (Graduação em Ciência da
Computação) - Universidade Federal de Pelotas . Orientador: Prof. Dr. Paulo Roberto Ferreira Júnior .
Co-orientador: MSc. Rodrigo Coelho Barros. 2011.

CAMPELLO, A. de V.; LINS, L. N. Metodologia de Análise e Tratamento da Evasão e Retenção em


Cursos de Graduação de Instituições Federais de Ensino Superior . XXVII Encontro Nacional de
Engenharia de Produção , Rio de Janeiro, Brasil, 2008.

DEKKER, G; PECHENIZKIY, M.; VLEESHOUWERS, J. Predicting Students Drop Out: A Case


Study. In Proceedings of the International Conference on Educational Data Mining, Montreal,
Canadá, 2009.

DIAS, A. F.; CERQUEIRA, G. S.; LINS, L. N. Fatores Determinantes da Retenção Estudantil em um


Curso de Graduação em Engenharia de Produção. Congresso Brasileiro de Educação em Engenharia,
Recife, Brasil, 2009.

DIAS, M. M. Parâmetros na escolha de técnicas e ferramentas de mineração de dados. Acta


Scientiarum, v. 24, n. 6, p. 1715-1725, 2002

DIFES/SESu/MEC. Reuni 2008 – Relatório de Primeiro Ano, 2009. Disponível em <


http://trasportalecer/index.php?option=com_docman&task=doc_download&gid=2069&Itemid= >
Acesso em 04 de Abril de 2013.

FAYYAD, U.; SMYTH, P. Advances in knowledge discovery and data mining. AAAI Press, 1996.

FREITAS, A. A.: A survey of evolutionary algorithms for data mining and knowledge discovery. In:
Advances in Evolutionary Computation, 2002.

INEP. Censo da Educação Superior 2010, Resumo Técnico. 2012. Disponível em <
http://download.inep.gov.br/educacao_superior/censo_superior/resumo_tecnico/resumo_tecnico_cens
o_educacao_superior_2010.pdf > Acesso em 04 de Abril de 2013.

KAMPFF , A. J. Mineração de Dados Educacionais para Geração de Alertas em Ambientes Virtuais


de Aprendizagem como Apoio à Prática Docente . Tese (Doutorado) - Programa de Pós-Graduação em
47

Informática na Educação da Universidade Federal do Rio Grande do Sul . Orientador: Prof. Dr. José
Valdeni de Lima , Co-orientador: Prof. Dr. Eliseo Berni Reategui 2009 .

LIMA, L. M. Mineração de Dados Utilizando Algoritmos Genéticos Adaptativos. Trabalho de


Conclusão de Curso. (Graduação em Ciência da Computação) - Universidade Federal da Bahia.
Orientador (a): Prof.ª Dr.ª Daniela Barreira Claro. 2009.

MANHÃES, L. M.; CRUZ, S. M.; COSTA, R. J.; ZAVALETA, J.; ZIMBRÃO, G. Identificação dos
Fatores que Influenciam a Evasão em Cursos de Graduação Através de Sistemas Baseados em
Mineração de Dados: Uma Abordagem Quantitativa. VIII Simpósio Brasileiro de Sistemas de
Informação, Trilhas Técnicas. São Paulo, Brasil. 2012.

PASTA, A. Aplicação da Técnica de Data Mining na Base de Dados do Ambiente de Gestão


Educacional: Um Estudo de Caso de Uma Instituição de Ensino Superior de Blumenau-Sc.
Dissertação (Mestrado) - Universidade do Vale do Itajaí. Orientador: Prof. Dr. Raimundo Celeste
Ghizoni Teive . 2011.

PITONI, R. M. Mineração de Regras de Associação nos Canais de Informação do Direto . Trabalho de


Conclusão de Curso. (Graduação em Ciência da Computação) - Universidade Federal do Rio Grande
do Sul. Orientador: Prof. Dr. Cláudio Fernando Resin Geyer , 2002.

REZENDE, S. O. Mineração de Dados. XXV Congresso da Sociedade Brasileira de Computação. A


Universalidade da Computação: Um Agente de Inovação e Conhecimento, São Leopoldo, Brasil,
2005.

SANTOS, Joilma Souza. Mineração de Dados Utilizando Algoritmos Genéticos. Trabalho de


Conclusão de Curso. (Graduação em Ciência da Computação) - Universidade Federal da Bahia.
Orientador (a): Prof.ª Dr.ª Daniela Barreira Claro. 2008.

SESu/MEC. Diretrizes Gerais do Programa de Apoio a Planos de Reestruturação e Expansão das


Universidades Federais – REUNI. 2007. Disponível em <
portal.mec.gov.br/sesu/arquivos/pdf/diretrizesreuni.pdf > Acesso em 04 de Abril de 2013.

SOUZA, Erick Nilsen Pereira de. Explorer Fuzzy Tree: uma ferramenta para experimentação de
técnicas de classificação baseadas em árvores de decisão fuzzy. Trabalho de Conclusão de Curso.
(Graduação em Ciência da Computação) - Universidade Federal da Bahia. Orientador (a): Prof.ª Dr.ª
Daniela Barreira Claro. 2007.

TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introduction to Data Mining. Pearson, 2006.

UFBA, Pró-Reitoria de Planejamento: Evolução dos Números da UFBA. 2012. Disponível em <
http://www.proplan.ufba.br/ > Acesso em 04 de Abril de 2013.

WU, X.; KUMAR, V.; ROSS QUINLAN, J.; GHOSH, J.; YANG, Q.; MOTODA, H.;
MCLACHLAN, G. J.; NG, A.; LIU, B.; YU, P. S.; ZHOU, Z.; STEINBACH, M.; HAND, D. J.;
STEINBERG, D. Top 10 algorithms in data mining. Knowledge Information Systems, 2007.

ZHOU, Z. H. Three perspectives of data mining. Artificial Intelligence jounal, 2003.

Vous aimerez peut-être aussi