Vous êtes sur la page 1sur 10

Um mecanismo de classificao automtica de mensagens

para promover o processo de ensino e aprendizagem centrado


em interaes
Abstract. In a complex teaching and learning process, possibilities are
enhanced, when teachers and students are both seen as a source of innovative
knowledge. In such context, the interactions of individuals stand out as the
starting point for the construction of new social reality, providing a new way
of teaching and learning we call "interactions-centered teaching and learning
process." This work explores one of the ways to improve this process in a
context of distance education, through an indirect form of mediation, which is
based on the discussion written in an electronic educational forum. In our
case, we apply techniques from natural language processing to develop an
automated system, we call Eu-Tu, able to analyze the interactions and
produce timely assessment indicators from the messages produced, for
purposes of educational evaluation or mediation.

Resumo. Em um processo de ensino e aprendizado complexo as possibilidades


de ensinar e aprender so ampliadas quando professores e alunos so vistos
igualmente como fonte de conhecimento inovador. Nesse contexto, as
interaes dos indivduos destacam-se como o ponto de partida para a
construo da nova realidade social, dando origem a uma nova forma de
ensinar e aprender que chamamos de processo de ensino e aprendizado
centrado nas interaes. O presente trabalho explora uma das possveis
formas de promover esse processo em um contexto de ensino a distncia,
atravs de uma forma indireta de mediao, que se apoia na discusso escrita
em um frum educacional eletrnico. Mais especificamente, aplicamos
tcnicas de processamento de linguagem natural para desenvolver um sistema
automtico, que denominamos de Eu-Tu, capaz de analisar oportunamente as
interaes e produzir indicadores de avaliao a partir das mensagens
produzidas.

Palavras-chave: Classificao Automtica de Textos. Anlise de Interaes.


Aprendizagem de Mquina. Processamento da Linguagem Natural.

1. Introduo
De acordo com a teoria da complexidade, conhecimento no somente aquilo que j se
sabe, mas tambm o que ainda no sabemos e que fornece um leque de opes de
respostas. Com isso, as interaes dos indivduos passam a ser o novo ponto de partida
para a construo da realidade social (ELIA, 2008).
Uma evidncia desse princpio na sociedade o rpido crescimento do fluxo de
informaes, ocorridos nos ltimos cinquenta anos, provocado pelo fenmeno da
globalizao. Estamos em um momento de epidemias sociais (GLADWELL, 2009),
onde ideias se espalham como se fossem vrus, capazes de contagiar comportamentos e
modificar tendncias. Nossas experincias passam a ser sementes de transformaes,
para ns e outros tambm. As demarcaes dos conceitos, outrora bem ntidas, se
2

tornam confusas rapidamente, sendo preciso testar repetidas vezes a forma como
entendemos as coisas. Pequenas mudanas so capazes de provocar efeitos
extraordinrios, a ponto de o mundo parecer no mais corresponder a nossa intuio.
Assim, acessar as informaes no garante que ser gerado conhecimento. necessrio
um estmulo certeiro. A informao, gerada e disseminada velozmente, precisa
convencer. Deve ser contextualizada para ser recebida em ambiente e momento
adequados, capazes de garantir o entendimento das mudanas.
O problema que temos tido informaes de mais para tempo de menos, o que
nos traz dificuldades para manter o foco e, muitas vezes, nos leva a agir sem pensar por
conta prpria. Nossa ateno requisitada o tempo todo e no d para seguir em frente
sem eliminar a sobrecarga cognitiva e certificar a validade das informaes. Depender
apenas do acaso para descobrir novos caminhos, muito menos. Para ser produtivo na
sociedade do conhecimento, essencial fazer uso significativo da informao.
Inovar a palavra de ordem que tem conduzido construo do que poderamos
chamar de "sociedade da inovao". Para tanto, preciso, oportunamente, saber
distinguir o que vlido, selecionar o que importante e modificar o que comum. Dar
conta dessas tarefas significa ter habilidades para analisar, compreender, avaliar,
criticar, argumentar, classificar, organizar e criar.
Em um mundo altamente "conectado", onde cada vez mais se demanda e produz
novos dados, o ponto-chave para no se perder o rumo selecionar e avaliar
continuamente as informaes por meio de questionamentos prprios, at que se
consiga reunir evidncias para sustentar as respostas e criar novas ideias (HOWARD,
2006). Avanos nas reas de processamento de linguagem natural, recuperao de
informao e de minerao de dados tm indicado que o emprego de tcnicas de
aprendizagem de mquina pode auxiliar a realizao dessas tarefas, por meio da
automatizao da anlise de contedos.
Duas atividades fundamentais para a anlise de contedo so a codificao e a
classificao de textos (ROURKE et al, 2001). Dentre os diversos tipos e estratgias
aplicadas na classificao automtica, destacamos a combinao (ensemble) de
classificadores Bayesianos binrios (DIETTERICH, 2000), principalmente quando se
precisa trabalhar em domnios com mltiplas classes.
Mesmo com algumas restries, o algoritmo de Bayes um dos mtodos de
aprendizagem de mquina mais populares e est presente nos melhores classificadores
(COLAS, BRAZDIL, 2006). Alm de ser simples de implementar e prtico de usar, o
classificador Bayesiano consegue ter maior escalabilidade e menor tempo de
processamento em relao aos classificadores rvore de Deciso e de Mxima Entropia.
H evidncias de que o classificador Bayesiano, em mdia, chega a ser 20% mais rpido
do que esses outros dois tipos de classificadores, sem que haja diferenas significativas
entre as precises alcanadas por cada um deles (GOMES, 2012).
Uma regra geral, vlida para classificadores Bayesianos, a reduo da preciso
com o aumento do nmero de categorias. Sendo assim, dentre os classificadores
Bayesianos multiclasses, os binrios so os que apresentam melhores resultados, Figura
1 (GOMES, 2012).
Como normalmente se trabalha em domnios que consideram vrias classes,
pode ser que o emprego de um nico classificador Bayesiano multiclasse no seja
3

vivel, por no ser capaz de proporcionar a preciso necessria. Assim, a combinao de


classificadores Bayesianos binrios mostra-se como uma alternativa mais apropriada a
ser considerada.

Figura 1. Influncia do nmero de categorias na preciso do classificador Bayesiano multiclasse

Figura 2. Influncia do tamanho do conjunto de treinamento para a preciso do classificador


Bayesiano

A qualidade da classificao tambm influenciada pelo o tamanho do conjunto


de treinamento. Para o classificador Bayesiano binrio, Gomes (2012) identificou a
tendncia de uma de relao linear entre essas duas grandezas (Figura 2).
Na prtica, nem sempre se dispe de corpora com grandes quantidades de
arquivos. Nesse caso, a utilizao de um modelo iterativo de classificao, onde novos
dados so aprendidos a cada novo ciclo, permite que a preciso seja aperfeioada
gradativamente.
4

Por tudo isso, propomos a criao de um mecanismo de classificao


automtica, formado por um conjunto de classificadores Bayesianos binrios, capaz de
analisar automaticamente contedos e indicar informaes teis para gerar
conhecimentos na "sociedade da inovao".
Neste trabalho, nossa proposta verificada atravs da classificao automtica
de mensagens trocadas em um frum virtual educacional.
Este artigo foi organizado em seis sees, uma introdutria (Seo 1), outra
descrevendo os trabalhos relacionados (Seo 2) ao processo de mediao e de
automatizao do processo de classificao de textos. Na seo 3 apresentada uma
instncia de aplicao para avaliar e mediar da presente proposta, em um contexto de
EAD/TIC, denominado modelo Eu-Tu.

2. Trabalhos relacionados
O estudo das interaes confinadas em transcries de discusses de fruns eletrnicos
tem sido objeto de muitas pesquisas. Os fruns eletrnicos constituem repositrios de
informaes preciosas e inexploradas. Do ponto de vista educacional, essas informaes
constituem um instrumento para aprimorar o processo de ensino e aprendizagem ao
revelar caractersticas de alunos e de professores. Henri chama a conferncia mediada
por computador (do ingls, Computer Mediated Conferencing) de "mina de ouro" das
estratgias de aprendizagem (HENRI, 1992).
Em um primeiro momento, as pesquisas a respeito das discusses eletrnicas
ficaram restritas apenas coleta de dados quantitativos sobre os nveis de participao
(HENRI, 1992). Contudo, esses ndices quantitativos no serviam para determinar a
qualidade das interaes (MEYER, 2004).
Outros pesquisadores usaram as transcries das discusses eletrnicas para
investigar o processo da construo social do conhecimento (GUNAWARDENA,
CARABAJAL, LOWE, 2001) e do pensamento crtico (BULLEN, 1997).
Especialmente em ambientes de EAD, onde a participao dos alunos
considerada de fundamental importncia, a anlise das interaes escritas pode
contribuir para avaliao da aprendizagem, eliminando mensagens propositadamente
enviadas para criar uma falsa impresso de participao. Tambm possvel identificar
o tema das discusses, e, com isso, acompanhar o progresso da aprendizagem (LUI et al
2004).

3. Aplicao em EAD/TIC
Uma excelente oportunidade para aplicao do mecanismo de classificao automtica
ora proposto em um contexto de EAD/TIC promover o processo de ensino e
aprendizagem centrado em interaes por meio da avaliao mediadora.
Mediar e a avaliar so tarefas fundamentais para que um professor possa
desempenhar seu papel. Por intermdio delas possvel influenciar o desenrolar das
aes e das reaes que ocorrem no processo de ensino e aprendizagem. Quando
aplicadas adequadamente, constituem um instrumento de transformao poderoso.
A avaliao mediadora proporciona autonomia e eleva o processo de ensino e
aprendizagem muito alm da transmisso e recepo de informaes. Seus indicadores
5

permitem acompanhar a evoluo das interaes e, com isso, corrigir erros e reforar
acertos, proporcionando desenvolvimento individual e coletivo.
Elaboramos uma ferramenta computacional, denominada de Eu-Tu, que associa
mediao (ao orientar) com avaliao (reao diagnstico) para promover o
processo de ensino e aprendizagem centrado em interaes.
Consideramos as interaes escritas em um frum eletrnico a base para a
avaliao mediadora e empregamos um conjunto de classificadores Bayesianos binrios
para implementar um Mdulo de Avaliao, conforme indicado na Figura 3.

Figura 3. Modelo bsico do Eu-Tu

O Mdulo de Avaliao tem por finalidade verificar a qualidade das interaes


escritas e gerar indicadores do progresso da aprendizagem para que seja procedida a
mediao adequada oportunamente. Essa verificao pode ser feita considerando
diferentes aspectos (Modelos de Avaliao), proporcionando mltiplas perspectivas
para se estudar as vrias dimenses do processo de ensino e aprendizagem.
Especificamente, adotamos a construo do conhecimento como indicador de
aprendizagem e, por isso, escolhemos a taxonomia desenvolvida por Lopes (2007) para
o Modelo de Avaliao. Essa taxonomia classifica as interaes de acordo com as fases
da construo social do conhecimento (GUNAWARDENA, 1997). Dessa forma, os
arquivos com os registros das conversaes, armazenados tanto por tempo quanto por
debatedor, podem ser analisados, quantitativamente e qualitativamente, para que sejam
feitas consideraes sobre a dinmica do processo ensino-aprendizagem.
O Mdulo de Mediao responsvel por delinear e implementar aes
(Estratgias de Mediao) que estimulem interaes efetivas a partir dos indicadores
gerados pelo Mdulo de Avaliao.

4. Metodologia cientfica empregada no trabalho


Para analisar nossa proposta, construmos uma instncia do Mdulo de Avaliao do
Eu-Tu empregando tcnicas de Processamento de Linguagem Natural com um conjunto
de ferramentas open source, escritas em Python, chamado de Natural Language Toolkit
6

NLTK (NLTK, 2010) e realizamos um estudo exploratrio. Todos os experimentos


necessrios foram feitos em um notebook Intel Core 2 Duo CPU P7550@2.26 GHz,
com 8 GB de memria RAM e sistema operacional Windows 7, Home Premium, 64
bit, com Service Pack 1.
Usamos a mesma base de dados empregada por Lopes (2007), constituda por
mensagens de um frum categorizado, implementado na plataforma Pii (ELIA,
SAMPAIO, 2001) para um curso de ps-graduao em Coordenao Pedaggica, do
Exrcito Brasileiro, realizado em sua maior parte na modalidade de EAD/TIC.
Em primeiro lugar, foi necessrio criar e treinar um classificador especfico para
cada categoria do Modelo de Avaliao escolhido (Saudao, Debate, Motivao,
Social, Informao, Confirmao, Negao, Tarefa, Esclarecimento, Indagao,
Agradecimento).

Figura 4. Particionamento usado para criar o corpus do classificador da categoria "Saudao"

Com essa finalidade, formamos novos corpora particionando apropriadamente o


corpus original usado por Lopes (2007), de modo que uma categoria pudesse ser
considerada como "alvo" (Positiva) e as demais, como "no-alvo" (Negativa). A fFigura
4 ilustra o processo de partio tendo a categoria "Saudao" como "alvo". Os valores
entre parnteses representam as quantidades de mensagens existentes em cada categoria.
Uma vez tendo criado e treinado separadamente os 11 classificadores binrios,
foi possvel reuni-los em um nico conjunto usando novamente o NLTK,
Para implementar a estratgia de classificao, empregamos uma abordagem de
votao tipo "um contra o resto", em que todos os classificadores apresentam seus votos
(classificao) para cada mensagem. Se apenas um voto for "positivo", a mensagem
considerada da mesma categoria de seu classificador. Caso contrrio, se houver mais de
um voto, considerada da categoria do classificador de maior preciso que votou
positivamente. Se no houver voto algum, classificada como "desconhecida". O
diagrama da Figura 5 ilustra esse mecanismo de votao.
7

Figura 5. Diagrama do esquema de votao para o conjunto de classificadores binrios

5. Anlise dos resultados


Como resultado da implementao da estratgia de classificao, a preciso da
combinao de 11 classificadores ficou em torno de 40%. Esse valor equivale a de um
classificador Bayesiano multiclasse de apenas 5 categorias, comprovando que, para
nossos objetivos, a combinao de classificadores Bayesianos binrios realmente uma
estratgia mais adequada do que um nico classificador multiclasse.
Notamos tambm que as classificaes mais precisas foram aquelas em que o
corpo de treinamento era formado por classificaes geradas por especialistas, como
professores ou mediadores.
Notamos tambm, conforme previsto por trabalhos anteriores (Figura 2) uma
reduo na preciso individual dos classificadores provocada pelo desbalanceamento de
classes. Na abordagem "um contra o resto", as categorias com menos mensagens
tendem a cometer mais erros.
Lamentavelmente, no conseguimos tratar desse problema ainda neste trabalho,
mas resultados de outros trabalhos mostram que, se esse desbalanceamento for tratado
adequadamente, a preciso ser ainda maior (KOTSIANTIS, KANELLOPOULOS,
PINTELAS, 2006; GARCIA et al, 2007). Portanto, tecnicamente, possvel alcanar a
preciso necessria (60% LUI, LI, CHOY, 2007) para que o conjunto de
classificadores seja usado como uma ferramenta automtica de avaliao do progresso
da aprendizagem em fruns eletrnicos de discusses.
De qualquer forma, a preciso j alcanada permite que o conjunto de
classificadores desenvolvido seja usado como uma ferramenta auxiliar para a avaliao
formativa e para o planejamento de mediaes individualizadas ou para grupos de
alunos, reduzindo os esforos despendidos pelos professores para a correo de
inmeras tarefas, principalmente em cenrios de EAD, que costumam apresentar
grandes quantidades de alunos. Tal fato permite cumprir o objetivo geral inicialmente
proposto para este trabalho, firmando convico a respeito da veracidade da hiptese
estabelecida.
8

6. Consideraes finais

No frum categorizado apresentado por Lopes (2007), toda comunicao entre


professor e alunos acontece via frum eletrnico de discusses. Antes de escrever sua
mensagem, cada usurio deve selecionar, em um menu especfico, o texto inicial a ser
empregado e que representar o significado do que deseja expressar. Ao fazer isso, a
mensagem indiretamente pr-classificada, uma vez que o texto escolhido est
relacionado taxonomia de categorias com significados semnticos para as discusses.
Outra forma tambm de acompanhar a evoluo da discusso e entender a dinmica do
processo de ensino-aprendizagem atravs da ps-classificao. Nela, as mensagens
so armazenadas para que sejam analisadas e classificadas futuramente, em geral, por
especialistas.
Apesar de, em ambos os casos, ser possvel associar os registros das interaes
s fases de aprendizagem, o emprego desses dois tipos de classificao no ocorre
indistintamente. Existem aspectos que podem favorecer mais a um tipo e desfavorecer o
outro. Por exemplo, a pr-classificao pode proporcionar mediao quase que de
imediato, entretanto no muito precisa. Em experimentos iniciais, encontramos vrias
discrepncias entre o significado do contedo das mensagens e a classificao que
receberam de seus autores. Parece que h obstculos que impedem os autores (p.ex.,
alunos) de escrever o que realmente intencionavam. Tal fato pode estar relacionado a
problemas de interpretao, ateno baixa ou mesmo ausncia de motivao para
envolvimento com as tarefas propostas e conduz a resultados equivocados e
comprometedores, principalmente quando se trata de avaliao. Por outro lado, a ps-
classificao, se realizada de forma manual, demanda muito tempo. As mensagens
precisam ser armazenadas para serem analisadas posteriormente s discusses. Esse
desperdcio retarda a mediao, restringindo-a de ser feita apropriadamente.
Essa dicotomia "tempo-preciso" nos pareceu estar ainda mais intensificada em
nosso trabalho e ter grande relevncia para sermos bem sucedidos, uma vez que
planejamos promover o processo de ensino e aprendizagem por meio de uma avaliao
mediadora proporcionada pela anlise de interaes escritas.
Foi preciso encontrar uma maneira de aliar os benefcios e reduzir os prejuzos
oriundos da pr-classificao e ps-classificao manuais. A classificao automtica se
mostrou um bom caminho a seguir e, por isso, a inclumos no modelo proposto.
Entendemos que um classificador automtico um importante componente para o
Mdulo de Avaliao do Eu-Tu, capaz de proporcionar ndices de avaliao adequados
e, simultaneamente, reduzir, ou mesmo eliminar, o desperdcio de tempo para gerar
esses ndices. Com isso, haver melhores condies para um professor mediar
oportunamente, ainda enquanto as interaes estiverem ocorrendo.
Neste trabalho, demos apenas o passo inicial para o desenvolvimento do Eu-Tu.
Sabemos que isso representa apenas "uma semente" lanada em um "vasto e frtil
terreno" para o ensino e aprendizagem centrados em interaes. E, para que essa
"semente" d muitos frutos, novos trabalhos so necessrios.
Achamos que, antes de construir o Mdulo de Mediao, seja necessrio incluir
uma etapa de testes com comunidades reais de alunos para aperfeioar a eficincia da do
Mdulo de Avaliao.
9

Referncias

BAHARUDIN, B.; LEE, L.H.; KHAN, K. (2010) A Review of Machine Learning


Algorithms for Text-Documents Classification. Journal of Advances in Information
Technology, v. 1, n. 1, p. 4-20, February, 2010. DOI:10.4304/jait.1.1.4-20.

BULLEN, M. (2004). A case study of participation and critical thinking in a university-


level course delivered by computer conferencing. Tese (Doutorado) University of
British Columbia, Vancouver, Canada, 2004.

COLAS, F.; BRAZDIL, P. (2006). Comparison of SVM and Some Older Classification
Algorithms in Text Classification Tasks. In: BRAMER, M. (Ed.) Artificial
Intelligence in Theory and Practice. Boston: Springer, 2006. v. 217, p. 169-178.

DIETTERICH, T. G. Ensemble Methods in Machine Learning. (2000). In: KITTLER,


J.; ROLI, F. (Ed.). INTERNATIONAL WORKSHOP ON MULTIPLE
CLASSIFIER SYSTEMS MCS, 1., Jun, 2000, Cagliari, Italy. Proceedings ...
London, UK.: Springer-Verlag, 21-23 June, 2000, p.1-15. (Lecture Notes In
Computer Science, v. 1857). ISBN:3-540-67704-6.

ELIA, M. F.; SAMPAIO, F. F. (2001). Plataforma Interativa para Internet (PII): uma
proposta de pesquisa-ao a distncia para professores. In: SIMPSIO
BRASILEIRO DE INFORMTICA NA EDUCAO SBIE, 12., 2001, Vitria.
Anais eletrnicos... Vitria: UFES, 2001. p. 102-109.

ELIA, M. F. O papel do Professor diante das InovaesTecnolgicas. (2008). In:


CONGRESSO DA SOCIEDADE BRASILEIRA DE COMPUTAO SBC 2008,
28., Workshop de Informtica na Escola WIE, 2008, Belm, Par: Anais
eletrnicos... Belm, Par: UFPA, 2008. p. 215-224.

GARCIA, V. et al. (2007). The class imbalance problem in pattern classification and
learning. In: Congreso Espaol de Informtica, 2, 2007. Zaragoza, Spain. Taller de
Minera de Datos y Aprendizaje TAMIDA 2007, 4. Zaragoza, Spain, September,
2007. ISBN: 978-84-9732-602-5.

GLADWELL, M. (2009). O Ponto da Virada. Editora Sextante. ISBN: 9788575424834.


2009.

GOMES, G. A. F. (2012). Eu-Tu: o emprego da classificao automtica de mensagens


em fruns eletrnicos de discusses para anlise do processo de ensino e
aprendizagem centrado em interaes. 2012. Dissertao (Mestrado em Informtica)
Universidade Federal do Rio de Janeiro (UFRJ), PPGI/IM/iNCE, Rio de Janeiro,
2012.
10

GUNAWARDENA, C. N.; LOWE, C. A.; ANDERSON, T. (1997). Analysis of a


global online debate and the development of an interaction analysis model for
examining social construction of knowledge in computer conferencing. Journal of
Educational Computing Research, Amityville, v, 17, n. 4, p. 397-431, 1997.

GUNAWARDENA, C. N.; CARABAJAL, K.; LOWE, C. A. (2001). Critical analysis


of models and methods used to evaluate online learning networks. In: ANNUAL
MEETING OF THE AMERICAN EDUCATIONAL RESEARCH ASSOCIATION,
2001, Seattle. Reports...Seattle: American Educational Research Association, 2001.

HENRI, F. (1992). Collaborative learning through computer conferencing. In: KAYE,


A.R. (Ed.). NATO Advanced Research Workshop on Collaborative Learning and
Computer Conferencing, July 29-August 3, 1991, Copenhagen, Denmark.
Proceedings..., Berlin: Springer-Verlag, 1992. NATO ASI series. Series F, Computer
and system sciences, vol. 90, NATO. ISBN 10 3540557555, 0387557555.

HOWARD, K. C. (2006). Millennials spur teaching change. Las Vegas Review Journal.
6 Maro 2006.

KOTSIANTIS, S.; KANELLOPOULOS, D.; PINTELAS, P. (2006). Handling


imbalanced datasets: A review. In GESTS International Transactions on Computer
Science and Engineering. v.30, n.1, p. 25-36, 2006.

LOPES, M. S. S. (2007). Avaliao da Aprendizagem em Atividades Colaborativas em


EAD Viabilizada por um Forum Categorizado . 2007. Dissertao (Mestrado em
Informtica) Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2007.

LUI, A.K. (2004). A Learning Thermometer: Improving Visibility of Learning


Activities in Online Discussion Forums. Distance Education and Technology: Issues
and Practice, D. Murphy et al.eds., Open University of Hong Kong Press, 293-307,
2004.

LUI, A. K.; LI, S. C.; CHOY, S. O. An Evaluation of Automatic Text Categorization in


Online Discussion Analysis. (2007). In: International Conference on Advanced
Learning Technologies CALT 2007, 7th, 18-20 July 2007, p. 205 - 209.

MEYER, K. (2004). Evaluating online discussions: four different frames of analysis.


Journal of Asynchronous Learning Networks, v.8, n.2, pp. 101114, 2004.

NLTK (2010). Disponvel em: http://nltk.sourceforge.net/index.php/Book. Acessado em


30 de setembro de 2010.

ROURKE, L., ANDERSON, T. GARRISON, D.R., ARCHER, W. (2001).


Methodological issues in the content analysis of computer conference transcripts.
International Journal of Artificial Intelligence in Education, v. 12, 2001.

Vous aimerez peut-être aussi