Académique Documents
Professionnel Documents
Culture Documents
INSTITUTO DE MATEMÁTICA
DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
SALVADOR
2013
ERLAN CARDOSO XAVIER
SALVADOR
2013
RESUMO
One of the great challenges in the brazilian academic refers to retention and drop out
of students, including both the public sector and the private. With the deployment of REUNI
in the Federal Public Universities, various analyzes were performed in order to evaluate the
rates of retention and drop out after their deployment. Specifically at UFBA, the course of
Bachelor of Information Systems was analyzed to detect possible curriculum components that
retain their students. KDD has been used successfully in several areas in academic and some
results have been used to aid their managers. Thus, the present work from a tool developed
which performs the steps of KDD, this study aims to use association algorithms to aid in the
discovery of patterns that support the problem of retaining students through the academic
record of the students from the course. Association rules are generated from a support and
confidence greater than eighty ten percent respectively to assist the academic coordinator in
the analysis of the problem of retaining students and provide some suggestions for
improvements to the course of Bachelor of Information Systems from UFBA.
3.5 Árvore de decisão para classificação de discentes quanto ao resultado em uma dada
disciplina criada a partir da tabela 3.1 (KAMPFF, 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.8 Construção de um k-itemset candidato a partir de dois frequentes de tamanho k-1 (AMO,
2003). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.2 Fluxograma do curso de BSI. Dados com registros de disciplinas até o 5º semestre, à
esquerda da barra divisória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.3 Listagem 1 das regras periféricas envolvendo atributos semestrais e gerais dos discentes . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.4 Listagem 2 das regras periféricas envolvendo atributos semestrais e gerais dos discentes . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.8 Listagem 1 das regras centrais envolvendo atributos semestrais e gerais dos discentes . 38
5.9 Listagem 2 das regras centrais envolvendo atributos semestrais e gerais dos discentes . 39
5.14 Desempenho dos discentes em MATA42 nos anos de 2010, 2011 e 2012 . . . . . . . . . . 42
LISTA DE TABELAS
1 Introdução 1
2 Retenção e Evasão 3
3.1 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Pós-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4 Aplicando o KDD 19
4.1 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.3 Pós-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5 Estudo de Caso 30
5.1 O Curso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.2.1 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.2.3 Pós-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6 Conclusão 44
Referências 46
1
1 INTRODUÇÃO
No âmbito público federal esse problema foi relatado pelo REUNI em (SESU/MEC,
2007) ao constar que em alguns cursos o problema da evasão atinge níveis alarmantes. A
partir disso, o REUNI estabeleceu como uma de suas metas a elevação da taxa de conclusão
média dos cursos para noventa por cento.
Assim, este trabalho teve por objetivo fazer análises de retenção de discentes usando o
KDD tomando como estudo de caso os dados de desempenho acadêmico de discentes do
curso de Bacharelado em Sistema de Informação, BSI, da Universidade Federal da Bahia.
Para usar o KDD, foi desenvolvida a ferramenta UFBAMiner que realiza as etapas do
processo. Foi utilizada a tarefa de Associação e regras de associação com confiança acima de
oitenta por cento foram descobertas. Análises dos resultados mostraram que existem
disciplinas que são norteadoras para o desempenho dos discentes em sua vida acadêmica.
Algumas disciplinas foram particularmente analisadas gerando para as mesmas sugestões para
um melhor aproveitamento e desempenho por parte dos discentes.
2 RETENÇÃO E EVASÃO
2007). A forma de cálculo da taxa anteriormente mencionada é dada pela razão do total de
diplomados dos cursos num dado ano pelo total de vagas de ingresso ofertada pela
universidade cinco anos antes.
Pelos dados do último censo (Tabela 2.1), o número de ingressos em 2010 teve um
aumento de mais de 100% relativo ao ano de 2001 no âmbito público e privado. Na âmbito
público o aumento do número de ingressos foi menor, quase atingindo 90%. A categoria
pública federal, entretanto, foi a que apresentou o maior aumento no índice de ingressantes,
quase 140%, fato este devido, principalmente, ao REUNI, que foi implementado em 2008, no
primeiro semestre para 42 universidades (dentre elas a UFBA) e no segundo semestre para 11
outras universidades (DIFES/SESU/MEC, 2009).
Tabela 2.1: Evolução do Número de Ingressos por Categoria Administrativa (INEP, 2012)
Tabela 2.2: Evolução do Número de Concluintes por Categoria Administrativa (INEP, 2012)
5
Apesar dos aumentos das taxas de ingresso e conclusão, e considerando que o aumento
do número de ingressos refletirá no número de concluintes, ainda assim, é notório uma grande
discrepância entre o número de ingressos e o de diplomados.
Usando a forma de cálculo da taxa de conclusão média adotada pelo REUNI tem-se a
Tabela 2.3. Antes, ressalta-se que é usado essa forma de cálculo apenas como uma forma de
percepção do problema aqui apontado, não analisando os resultados do REUNI, uma vez que
este teve início a partir de 2008 (DIFES/SESU/MEC, 2009), sendo realmente aplicável apenas
a partir de 2013, cinco anos depois de iniciado o programa.
Tabela 2.3: Taxa de Conclusão média no âmbito público, privado e total, adaptada de (INEP, 2012)
Pelos valores das taxas calculados, percebe-se como é relevante os efeitos de retenção
e da evasão acadêmica, atingindo tanto o setor público quanto o privado. No último ano,
2010, a taxa de conclusão média nacional ficou abaixo de 50%. Observa-se que os índices de
conclusão não correspondem aos índices de ingressantes. A Figura 2.1, criada a partir da
Tabela 2.3, mostra um gráfico com a diferença entre o número de ingressantes e o número de
diplomados ao fim de cinco anos no âmbito público.
Número de ingressantes / diplomados
400.000
350.000
300.000
250.000
200.000
150.000
100.000
50.000
0
2001 2002 2003 2004 2005 2006
Anos de ingressantes analisados
Apesar da esfera pública federal ter apresentado o maior índice de ingressos dos
últimos dez anos, de 2001 à 2010 (ver Tabela 2.1), atingindo quase 140%, considerando até
mesmo a esfera privada, em 2010 a taxa de conclusão média ficou um pouco acima de 55%,
Tabela 2.4. Ainda a partir Tabela 2.4, destaca-se, o declínio, quase que constante, da taxa de
conclusão na esfera pública municipal, em 2010 abaixo de 40%.
Tabela 2.4: Taxa de conclusão média no âmbito público federal, estadual e municipal, adaptada de (INEP, 2012)
No que diz respeito à Universidade Federal Da Bahia, UFBA, exceto o ano de 2009,
todos os demais ficaram com taxa de conclusão abaixo de 65%, (Tabela 2.5).
80,0%
70,0%
60,0%
Taxa de conclusão
50,0%
40,0%
30,0%
20,0%
10,0%
0,0%
2005 2006 2007 2008 2009 2010
Anos de conclusão analisados
Taxa de conclusão
Pela Figura 2.2, criada a partir da Tabela 2.5, observa-se que a UFBA nos últimos seis
anos não ultrapassou 70% a sua taxa de conclusão.
7
Partindo das mesmas causas de evasão devido ao forte relacionamento entre si, as
causas de retenção são variadas, diversas e até mesmo complexas. Entre as mais citadas na
literatura relacionadas aos discentes estão a dificuldade de acompanhamento acadêmico
(manifestada através de reprovação, trancamento de disciplinas, abandono e trancamento de
curso), adaptação (falta de maturidade, formação básica deficiente), relacionamento pessoais
e problemas de ordem financeira. Relacionadas aos cursos estão as causas ligadas desde à
infra-estrutura até o corpo docente.
3 PROCESSO DE DESCOBERTA DO
CONHECIMENTO KDD
Apesar deste trabalho referir-se em algumas vezes à Mineração de Dados, MD, Data
Mining, aqui esta é considerada apenas uma etapa do KDD. Na literatura alguns defendem o
KDD e a MD como sendo sinônimos, enquanto outros, defendem que a MD é uma etapa do
KDD, sendo a MD a etapa principal (REZENDE, 2005). Este último posicionamento é o
adotado neste trabalho.
Quanto a MD ser a etapa principal do KDD, isso se deve, pois é nesta etapa que está
concentrada a maior parte da complexidade envolvida no processo: os algoritmos. Entretanto,
as demais etapas: o Pré-processamento e Pós-processamento, são fundamentais para o sucesso
do KDD. A depender de como dados estão armazenados, transformações a serem realizadas, e
até mesmo da própria qualidade dos dados, a etapa de Pré-processamento, responsável por
lidar com estes, pode ocupar a maior parte do tempo do KDD (TAN; STEINBACH;
KUMAR, 2006). Da mesma forma, o tipo de resultado produzido na etapa de mineração pode
afetar o tempo de Pós-processamento na organização e representação do conhecimento
descoberto no processo.
A partir de (FAYYAD; SMYTH, 1996) e (FREITAS, 2002), KDD pode ser definido
como o processo de descobrir padrões novos, válidos, úteis e compreensíveis em base de
dados de maneira automática ou semi-automática. Quanto aos termos anteriores, 'dados',
'padrões', 'válidos', entende-se (REZENDE, 2005): dados, grandeza ou valor que quantifica ou
qualifica algo; padrões, abstração de um conjunto de dados sob uma linguagem descritiva
conceitual; válidos, que são aceitáveis a partir de limiares.
tentar caracterizar doenças pelos seus sintomas), em operações financeiras (na análise de
fraudes e análise de pedido de crédito ao se categorizar um cliente como um provável bom ou
mau pagador) e na Web, sendo objeto de estudo de diversas pesquisas (DIAS, 2005).
3.1 PRÉ-PROCESSAMENTO
Antes de iniciar-se a etapa de Pré-processamento em si, o processo de descoberta de
conhecimento parte, além da definição clara do problema a ser investigado, do estudo do
domínio que o problema está amparado. Para que cada etapa tenha sucesso, e de modo geral,
todo o processo, tal domínio é fundamental. Metas, critérios de desempenho e possíveis
restrições devem estar bem definidos antes de se iniciar o Pré-processamento (REZENDE,
2005).
É comum os dados a serem usados estarem suscetíveis aos mais variados problemas:
dados incompletos, inconsistentes, ou com ruídos. Na constatação destes tipos de problema
deduz-se falhas ou erros nos sistemas responsáveis por estes dados, sendo então dada um
primeira contribuição do KDD, ao informar tais erros ou falhas aos responsáveis pelos
gerenciamento dos sistemas. Se os dados vierem de fontes diferentes, a possibilidades de
problemas aumenta ainda mais, pois podem conter informações redundantes (ou repetidas),
diferirem na definição do tipo de dado utilizado para as mesmas informações (booleano ou
inteiro), além de poderem estar armazenados sob diferentes formatos (diferentes tipos de
arquivos).
Dessa forma, as operações desta etapa visam prover uma melhor adaptação dos dados
às tarefas seguintes e aumentar a qualidade dos dados (TAN; STEINBACH; KUMAR, 2006).
FREITAS (2002) descreve algumas operações que podem ser realizadas: limpeza,
integração, transformação e redução.
Limpeza de dados, data cleaning, tem por objetivo corrigir erros nos dados,
removendo ruídos e duplicações, ou preenchendo valores de atributos nulos.
Integração de dados, data integration, tem por objetivo fazer a junção de dados
quando estes estão armazenados em locais distintos.
Transformação dos dados, data transformation, tem por objetivo colocar os dados no
padrão requerido para a fase de Mineração. Nesta pode-se realizar uma normalização
(modificação da escala dos valores de determinado atributo), discretização (transformação de
dados contínuos em discretos) ou categorização (principalmente transformar dados numéricos
para literais).
11
Redução dos dados, data reduction, tem por objetivo reduzir o tamanho do conjunto
de dados a fim de facilitar o processamento na MD, no entanto, que produza aos mesmos
resultados, ou com perdas irrelevantes.
A seleção de atributos objetiva também realizar uma redução nos dados, mas a nível
de atributos e não de registros. Nem todo atributo disponível pode será útil na investigação do
problema, atributos pessoais como RG (Registro Geral) e nomes são dispensáveis.
3.2 PÓS-PROCESSAMENTO
A partir dos resultados obtidos na etapa anterior, MD, o usuário fará suas tomadas de
decisões. Porém, a quantidade de padrões gerados, normalmente, é grande e nem todos são
interessantes ou úteis ao usuário. Dessa forma, fazer tratamentos para que se possa oferecer
ao usuário apenas um conjunto reduzido de tais padrões é de fundamental importância.
Com a aplicabilidade da MD nas mais diversas áreas, os tipos de tarefas são diversos e
cada um gera um determinado tipo de padrão. Vê-se então, a necessidade de se deixar claro
qual o tipo de padrão a ser buscado para a devida escolha dos algoritmos a serem usados.
CLASSIFICAÇÃO
Dentre os diversos tipos de padrões, estão os padrões com poder preditivo. Saber se
um cliente atenderá ao esperado no lançamento de uma promoção ou oferta, diagnosticar
doenças a partir de alguns sintomas, prever se um cliente será um bom ou mau pagador em
um pedido de crédito são algumas das possíveis aplicações que podem ser utilizadas através
da tarefa de classificação.
Tabela 3.1: Tabela de desempenho de discentes em uma dada disciplina (KAMPFF, 2009)
Figura 3.5: Árvore de decisão para classificação de discentes quanto ao resultado em uma dada disciplina criada
a partir da Tabela 3.1 (KAMPFF, 2009)
Além da classificação sob a forma de árvore de decisão existem outras técnicas para a
realização da classificação baseadas em regras, redes neurais, estatísticas entre outras.
15
REGRESSÃO
A forma com que a regressão tenta fazer essa predição é a partir da criação de uma
função que tem como variáveis os valores, numéricos, dos atributos (SOUZA, 2007).
CLUSTERIZAÇÃO
ASSOCIAÇÃO
A associação tem por objetivo gerar regras que expressam relações entre atributos por
meio de suas frequências de ocorrências. Essas regras são do tipo A→B onde A e B são
conjuntos disjuntos e podem conter um ou mais elementos, diferentemente da classificação,
que tem de ter o consequente, B, unitário e cuja classe meta só pode aparecer neste lado da
regra (SANTOS , 2008).
Observe que nem sempre uma regra com grande confiança implica ser uma boa regra,
pois é fundamental também que se tenha um bom suporte (definido pelo usuário), pois pode
ser o caso da regra se referir à casos específicos ou até mesmo único, que não deve ser
generalizadas, objetivo dos padrões descobertos na MD. A tarefa de associação é a utilizada
no presente trabalho.
Existem diversos tipos de técnicas, entre as mais populares estão regras e árvore de
decisão, estatísticas e redes neurais, quanto a esta, apesar de não gerar conhecimento
explícito, tem sido empregada em aplicações com algoritmos genéticos e lógica fuzzy
(REZENDE, 2005).
A maior parte dos trabalhos aqui relatados lidam com o problema da evasão, e não
com retenção, apesar de serem relacionados. Em sua maior parte, estes trabalhos usaram em
seus estudos de caso dados de discentes em disciplinas específicas ou dados de discentes de
toda uma universidade, permitindo dessa forma emitir seus resultados apenas para estes casos.
Este trabalho usou dados , e desenvolveu uma ferramenta para trabalhar, a nível de curso, que
é mais útil e interessante para os seus coordenadores do que a nível disciplinas (muito
específico) ou a nível de universidade (muito generalizado). Poucos trabalhos usaram a tarefa
de Associação (usada neste trabalho), que permite a descoberta de relações mais diretas entre
os atributos usados no KDD, principalmente no que diz respeito ao desempenho em
disciplinas e as relações entre as mesmas, que são abordadas no presente trabalho.
Data Warehousing é um processo que objetiva preparar e gerenciar os dados para uma
visão específica de um negócio a ser analisado, tendo como produto principal o Data
Warehouse, DW (REZENDE, 2005).
4 APLICANDO O KDD
4.1 PRÉ-PROCESSAMENTO
Como dito na fundamentação teórica, o pré-processamento objetiva preparar os dados
para as etapas posteriores realizando operações como integração, redução, seleção, limpeza e
transformação dos dados (FREITAS, 2002).
De posse dos dados adquiridos pela extração, são realizadas transformações para
armazenamento em um banco de dados. Para a realização deste armazenamento foi necessário
fazer a extração dos dados do arquivo gerado para o SGBD, Sistema Gerenciador de Banco de
Dados. A Figura 4.3 mostra o modelo criado para esse armazenamento e a Tabela 4.1
comenta alguns dos atributos utilizados.
21
Observe que nem todos os dados encontrados no histórico foram utilizados. Atributos
como número de RG, nome de pai, mãe e discente e outros irrelevantes para a pesquisa
realizada foram excluídos na extração pois não são úteis para o processo de descoberta de
conhecimento.
Nem todos os atributos e também nem todos registros disponíveis são úteis para o
KDD. Cabe ao usuário dizer quais são e quais não são importantes para o processo, isto é,
cabe ao usuário fazer a seleção dos dados e atributos.
A Figura 4.6 mostra parte da ferramenta usada para a transformação dos dados e a
Figura 4.7 mostra parte do modelo criado para armazenamento dos dados transformados
destacando alguns atributos que foram transformados.
Uma vez que a etapa de pré-processamento tenha sido realizada, inicia-se a etapa da
MD.
26
Não há uma tarefa ou técnica que possa resolver todo tipo de problema de MD. A
escolha depende do problema a ser analisado e das características (tipo, conteúdo e relação
entre registros) dos dados disponíveis, tendo vantagens e desvantagens (DIAS, 2005).
Dessa forma, a Associação é a tarefa usada neste trabalho, uma vez que não depende
apenas de um único atributo. Observou-se que a Associação simula possíveis resultados da
Classificação, porém, para todos os possíveis atributos, e não apenas para um único como na
Classificação.
A maioria das técnicas de mineração de dados é incapaz de manipular texto Raciocínio baseado em casos (MBR)
Texto sem formatação
sem formatação.
27
ALGORITMO
Este algoritmo funciona de forma iterativa, onde para cada iteração, a geração de
itemsets frequentes dependem do conjunto de itemsets frequentes já conhecidos até a iteração
anterior. De modo mais simples, para a descoberta de itemsets frequentes de tamanho k
(iteração k) os itemsets frequentes de tamanho k-1 já foram descobertos no passo anterior
(iteração k-1), estes por sua vez, descobertos a partir dos itemsets frequentes de tamanho k-2
(iteração k-2), e assim por diante.
Figura 4.8: Construção de um k-itemset candidato a partir de dois frequentes de tamanho k-1 (AMO,
2003)
Para esclarecer melhor esta etapa considere o exemplo (AMO, 2003): suponha que se
está iniciando a iteração 3 do Apriori, e que dessa forma o conjunto de itemsets frequente de
tamanho 2, L2, já foi descoberto. Seja:
L2 = {{1, 3}, {1, 5}, {1, 4}, {2, 3}, {3, 4}, {2, 4}}
Este último passo pode ser visto na Figura 4.6, destacada em laranja.
Alguns parâmetros para execução do Apriori foram definidos a fim de obter regras que
garantam uma qualidade mínima. Dos mais importantes parâmetros estão a confiança mínima
e o suporte mínimo, definidos para 80% e 10% respectivamente. A fim de que possa
investigar melhor algumas regras geradas, tais valores podem ser, e em algumas casos foram,
alterados.
4.3 PÓS-PROCESSAMENTO
Apesar da Mineração de Dados filtrar algumas de suas regras descobertas a partir da
confiança e do suporte definidos pelo usuário, a quantidade de regras ainda pode ser grande,
tornando-se difícil para o usuário fazer a análise de quais são relevantes. Dessa forma apenas
regras com no máximo três antecedentes foram analisadas.
30
5 ESTUDO DE CASO
5.1 O CURSO
O curso de BSI foi criado em 2010 e espera ter sua primeira turma de formandos no
segundo semestre de 2014. Dessa forma, a retenção a ser analisada ocorre até a metade do
curso. Entretanto, sabe-se que o que pode causar, ou contribuir, para retenção é,
principalmente, reprovações em disciplinas. Principalmente, pois, existem outros fatores
como um baixo número de disciplinas inscritas, indisponibilidade de disciplinas semestrais,
isto é, disciplinas oferecidas apenas anualmente, organização das disciplinas e seus pré-
requisitos (fluxograma do curso) entre outros. Dessa forma, o maior interesse deste trabalho
está, principalmente, em analisar resultados que implicam ou envolvam reprovações nas
disciplinas com o intuito de evitar evasões futuras para este curso. É importante detectar o
problema para que na próxima turma seja possível ajustá-lo, evitando assim altos índices de
evasão.
5.2.1 PRÉ-PROCESSAMENTO
Não foi necessária a realização de limpeza nos dados, mas sim vários tratamentos na
extração dos mesmos. O arquivo de históricos contém, por exemplo, registros de inscrição nas
disciplinas dos discentes no semestre atual, ou seja, disciplinas em curso que não possuem
ainda resultados. Alguns outros registros também não continham, para uma única disciplina
específica, as notas dos discentes em um dado semestre. Tais registros foram dispensados no
momento da extração. A Figura 5.1 mostra a ocorrência destes problemas
31
Como dito anteriormente, o curso de BSI é ainda novo, e teve até agora apenas três
turmas, ingressantes nos anos de 2010, 2011 e 2012, visto que o curso é anual. Os dados
iniciais (do arquivo PDF) continham registros de 168 discentes. No entanto, dentre esses
discentes estão alguns que tiveram sua classificação no vestibular cancelada. Estes pediram
aproveitamento de disciplinas que já haviam cursados em outras instituições acima do
permitido pela UFBA (30%), como foi negado, estes desistiram de cursar BSI, sendo então
removidos do conjunto de dados a serem usados no processo de descoberta de conhecimento.
Foram removidos ainda os discentes que apresentaram um coeficiente de rendimento igual a
zero ou que tinham uma carga horária total também igual a zero. Esta medida foi usada pois
acredita-se que tais discentes que não foram aprovados em pelo menos uma disciplina, não
chegaram a ter um comprometimento, ainda que mínimo, com o curso. Do total de discentes
iniciais, 168, estes foram reduzidos a 118 discentes. Essas exclusões visam ter uma melhor
qualidade nos dados, o que acaba por refletir nos padrões descobertos no processo.
Ainda devido ao curso de BSI ser novo, só existe registros de disciplinas até o 5º
semestre. Então regras envolvendo disciplinas a partir do 6º semestre, não podem ocorrer. A
Figura 5.2 apresenta o fluxograma de BSI e a barra separa os semestre analisados neste
trabalho.
32
Figura 5.2: Fluxograma do curso de BSI. Dados com registros de disciplinas até o 5º semestre, à esquerda da
barra divisória
33
Essas informações sobre os dados usados no processo são importantes, tanto para uma
correta análise dos padrões descobertos, como para entender a capacidade/possibilidade de
geração de outros padrões.
1) Relacionados ao discente:
3) Relacionados à disciplinas:
Para a mineração foram definidos os valores de 80% e 10% para a confiança e suporte
respectivamente. O número de regras pode definido como parâmetro na mineração, e neste foi
definido um número grande, acima de 1000 para se garantir que todas as regras que
atendessem até o valores mínimos para a confiança e suporte pudessem aparecer.
5.2.3 PÓS-PROCESSAMENTO
RESULTADOS PERIFÉRICOS
Na etapa de mineração de dados surgiram algumas regras que, apesar de não estarem
diretamente relacionadas com o problema analisado, podem ser úteis para um melhor
entendimento dos próprios resultados. Estas regras relacionam disciplinas e o desempenho
semestral dos discentes, mas, principalmente, resultados das disciplinas entre si.
Figura 5.3: Listagem 1 das regras periféricas envolvendo atributos semestrais e gerais dos discentes
Figura 5.4: Listagem 2 das regras periféricas envolvendo atributos semestrais e gerais dos discentes
Devido às circunstâncias do curso de BSI, novo e ainda sem uma turma de egressos, as
regras aqui citadas normalmente "apontam" para trás, isto é, o consequente da regra ocorre
antes do antecedente. Para o curso de BSI, por exemplo, foram descobertas as regras da
Figura 5.5:
1BOM corresponde aos valores numéricos transformados para literais conforma explicado anteriormente na
Tabela 5;3. Neste caso, entre 7.0 e 8.9.
2
RUIM corresponde aos valores numéricos transformados para literais conforma explicado anteriormente na
Tabela 5;3. Neste caso, entre 3.0 e 4.9. Por outras regras descobriu-se que ADM001 era considerada um
disciplina fácil pelo grande número de aprovações.
37
Como dito anteriormente, essa regras (que apontam para trás) ocorrem devido às
características dos dados aqui usados. Para cursos mais antigos, espera-se que regra com
caráter preditivo apareçam, pois com o passar do tempo, a diferença quantitativa de
ocorrências de resultados nas disciplinas tende a diminuir.
Figura 5.7: Aprovação em Estrutura de Dados implica aprovação em Programação Orientada a Objetos,
Introdução a Ling. Formais e Teo. Comp. e Álgebra Linear, com confiança a partir de 80%
requisito forem analisados. Por exemplo, se houvesse uma regra em que a aprovação de uma
disciplina 'A' implicaria aprovação de uma disciplina 'B' (sempre atendendo às métricas), caso
um discente fosse aprovado em A, se B exigisse um pré-requisito que este discente não
possui, este pré-requisito poderia ser contestado. Claro, partindo apenas dos resultados, sem
considerar a importância metodológica de ensino da disciplina a ser quebrada o pré-requisito,
que é fundamental para a qualidade de aprendizagem do discente.
RESULTADOS CENTRAIS
Foram considerados resultados centrais aqueles que são mais próximos ao problema
da retenção. E como comentado anteriormente, as causas que levam à retenção estão
relacionadas à reprovações nas disciplinas e suas consequências.
Foi observado que estas disciplinas são fortemente relacionadas entre si, baseando-se
nos resultados dos discentes, e que são também "norteadoras" quanto ao desempenho do
discente, isto é, os resultados do discente em tais disciplinas implicam em resultados
semelhantes quanto ao desempenho semestral e geral do discente.
Figura 5.8: Listagem 1 das regras centrais envolvendo atributos semestrais e gerais dos discentes
Por algumas outras regras, foi constatado que MATA37 , baseando em seus
resultados, tem um nível de dificuldade um pouco acima do regular. Dessa forma, pela regra
2, vê-se como a disciplina MATC90 é um forte indicador de desempenho do discente, onde a
sua reprovação implica coeficiente de rendimento ruim com a confiança informada.
1
Por outras regras descobriu-se que ADM001 era considerada uma disciplina “fácil” pelo grande número de
aprovação na mesma.
39
Figura 5.9: Listagem 2 das regras centrais envolvendo atributos semestrais e gerais dos discentes
Nas regras 5 e 6 têm-se o mesmo tipo de resultado, ou seja, reprovação em alguma das
disciplinas citadas resultam num número grande de reprovações naquele mesmo semestre em
que se inscreveram.
Vale notar que, como dito anteriormente, MATA42 e MATA37 são disciplinas do 1º
semestre. No entanto, as regras 5 e 6 dizem respeito aos resultados dos discentes nestas
disciplinas só que na segunda vez em que se inscreveram (final da disciplina termina com
'DIS2'), o que quer dizer que tais discentes cursaram estas disciplinas a partir do 2º semestre,
mais provavelmente no 2º semestre. Foi descoberto entretanto, que quando o discente é
reprovado nessa disciplinas, MATA42 e MATA37 (no segundo semestre) são também
também reprovados em MATC90 com uma confiança considerável. Essa análise é melhor
detalhada no tópico seguinte.
Na regra 1, todo o discente que foi reprovado por falta em MATA02 e reprovado em
MATA37 foi reprovado por falta em MATA42. Na regra 2 esse relacionamento entre
MATA02 e MATA42 é ainda mais nítido. As regras 3, 4 e 5 incrementam a visualização
dessa relação. Sobre a disciplina MATA37 mais precisamente, aparecem as últimas regras, 6
e 7, que relacionam MATA37 à MATA42.
Figura 5.11: Relações de resultados entre as disciplinas Introdução à Lógica de Programação, MATA37 e
Matemática Discreta I, MATA42, e entre esta e Cálculo A, MATA02
41
c) MATC90
Figura 5.13: Relações de resultados entre as disciplinas Introdução à Lógica de Programação, MATA37,
Matemática Discreta I, MATA42, Cálculo A, MATA02 com Circuitos Digitais e Arq. Computadores, MATC90
d) MATA42
Figura 5.14: Desempenho dos discentes em MATA42 nos anos de 2010, 2011 e 2012
43
e) DISCURSÕES E SUGESTÕES
Através das análises aqui realizadas, observou-se que MATA02, MATA37, MATA42
e MATC90 são disciplinas norteadoras para o curso de BSI, onde o desempenho do discente
nestas acabam por refletir o seu desempenho em sua vida acadêmica.
6 CONCLUSÃO
Este trabalho fez análises de retenção de discentes do BSI através do Apriori usando
registros de desempenho acadêmico. Devido às características dos dados utilizados, tais
análises foram feitas de modo direto, não quanto à retenção em si, mas sim, quanto à fatores
que possam levar a tal ocorrência, a partir dos dados de desempenho acadêmico, e de modo
especial, pelo desempenho em disciplinas.
Foi desenvolvida a ferramenta UFBAMiner para a realização das etapas do KDD. Essa
ferramenta pode ser utilizada para qualquer curso da UFBA, desde que use como fonte de
dados o arquivo de histórico emitido pelo SIAC.
Análises mostraram que existem disciplinas que são norteadoras para o desempenho
dos discentes em sua vida acadêmica. Algumas disciplinas foram particularmente analisadas
gerando para às mesmas sugestões para um melhor aproveitamento e desempenho por parte
dos discentes.
• Realizar novas análises para cursos mais antigos, tais como o Bacharelado em Ciência
da Computação;
45
REFERÊNCIAS
AGRAWAL, R.; SRIKANT, R. Fast Algorithms for Mining Association Rules. In Procedings Of The
20th International Conference On Very Large Databases, Santiago, Chile, 1994.
BRASIL, 2007. Decreto n° 6.096, de 24 de abril de 2007. Institui o Programa de Apoio a Planos de
Reestruturação e Expansão das Universidades Federais – REUNI. Presidência da República. Brasília,
DF: Diário Oficial da União de 25.04.2007. Disponível em <
http://www.planalto.gov.br/ccivil_03/_ato2007-2010/2007/decreto/d6096.htm > Acesso em 04 de
Abril de 2013.
FAYYAD, U.; SMYTH, P. Advances in knowledge discovery and data mining. AAAI Press, 1996.
FREITAS, A. A.: A survey of evolutionary algorithms for data mining and knowledge discovery. In:
Advances in Evolutionary Computation, 2002.
INEP. Censo da Educação Superior 2010, Resumo Técnico. 2012. Disponível em <
http://download.inep.gov.br/educacao_superior/censo_superior/resumo_tecnico/resumo_tecnico_cens
o_educacao_superior_2010.pdf > Acesso em 04 de Abril de 2013.
Informática na Educação da Universidade Federal do Rio Grande do Sul . Orientador: Prof. Dr. José
Valdeni de Lima , Co-orientador: Prof. Dr. Eliseo Berni Reategui 2009 .
MANHÃES, L. M.; CRUZ, S. M.; COSTA, R. J.; ZAVALETA, J.; ZIMBRÃO, G. Identificação dos
Fatores que Influenciam a Evasão em Cursos de Graduação Através de Sistemas Baseados em
Mineração de Dados: Uma Abordagem Quantitativa. VIII Simpósio Brasileiro de Sistemas de
Informação, Trilhas Técnicas. São Paulo, Brasil. 2012.
SOUZA, Erick Nilsen Pereira de. Explorer Fuzzy Tree: uma ferramenta para experimentação de
técnicas de classificação baseadas em árvores de decisão fuzzy. Trabalho de Conclusão de Curso.
(Graduação em Ciência da Computação) - Universidade Federal da Bahia. Orientador (a): Prof.ª Dr.ª
Daniela Barreira Claro. 2007.
TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introduction to Data Mining. Pearson, 2006.
UFBA, Pró-Reitoria de Planejamento: Evolução dos Números da UFBA. 2012. Disponível em <
http://www.proplan.ufba.br/ > Acesso em 04 de Abril de 2013.
WU, X.; KUMAR, V.; ROSS QUINLAN, J.; GHOSH, J.; YANG, Q.; MOTODA, H.;
MCLACHLAN, G. J.; NG, A.; LIU, B.; YU, P. S.; ZHOU, Z.; STEINBACH, M.; HAND, D. J.;
STEINBERG, D. Top 10 algorithms in data mining. Knowledge Information Systems, 2007.