Vous êtes sur la page 1sur 8

1

Trabalho de Concluso de Curso

13 de Novembro, So Paulo-SP, Brasil

SISTEMA DE IDENTIFICAO DE EMOES POR EXPRESSES


FACIAIS COM OPERAO AO VIVO
Bruno Tinen
tinen.bruno@gmail.com
Orientador: Prof. Dr. Marcos Ribeiro Pereira-Barretto

marcos.barretto@gmail.com
Resumo
Tendo por objetivo a identificao
automtica das expresses faciais, o
foco principal deste projeto estar
na anlise frame a frame dos sinais
de vdeo obtidos por uma cmera
online e a produo de uma resposta
adequada por parte do rob socivel.
Deseja-se que o resultado do processo
possa ser monitorado, atravs de uma
interface que mostre tanto o vdeo em
si
quanto
o
quo
prximo
de
determinada emoo a expresso est
classificada.
Sero
utilizados
os
classificadores de Haar em cascata
para a deteco de faces, os mtodos
de
reconhecimento
de
emoo
por
textura e o modelo de superfcies
emocionais
dinmicas
(traduo
literal do ingls Dynamic Emotional
Surface) para a anlise de expresses
faciais em seres humanos ao longo do
tempo. Testes de otimizao do filtro
de Kalman utilizado no processo de
reconhecimento contnuo e testes de
validao do sistema realizados com
voluntrios resultaram em taxas de
acerto por volta de 70% no melhor
caso. Ainda existem melhorias que
podero ser aplicadas ao projeto e a
escolha correta de cada um dos blocos
que permeia a soluo levar a um
desempenho do sistema similar quele
apresentado
por
uma
pessoa
sem
treinamento
especfico
na
identificao de emoes.

Palavras chave: Identificao de emoes,


expresses
faciais,
sistema
automtico, superfcie emocional.
1. Introduo
As emoes constituem um conjunto de ferramentas que
o ser humano desenvolve para que possa lidar
efetivamente com situaes de seu cotidiano. Ekman [1]
prope a existncia de um grupo universal de emoes
alegria, surpresa, medo, raiva, tristeza e averso cada
qual caracterizada por um conjunto de respostas
biolgicas, tais como alteraes da expresso facial e na
voz, inerentes ao ser humano, ou seja, independente de
fatores culturais ou sociais. Durante uma interao
social, 55% do contedo de uma mensagem
transmitido por meio de expresses faciais e corporais,
contra 38% da entonao e 7% da semntica da frase
[2]. Interpretar adequadamente uma expresso facial da
pessoa e, assim, a resposta emocional dela,
fundamental em contextos sociais, em particular na
gerao de respostas socialmente conexas por parte de
robs sociais.
Este trabalho tem como proposta a elaborao de um
sistema de reconhecimento dos seguintes estados
emocionais: alegria, tristeza, raiva e medo. Um estado
emocional equivale dinmica lenta de uma emoo e
ignora as distores da face decorrentes da fala ou
emoes instantneas, representando o estado mdio da
pessoa, em detrimento de sensaes instantneas que ela
possa ter vivenciado durante uma determinada interao.
O modelo de reconhecimento de emoo contnuo
adotado ser aquele proposto por Gonalves [13].

TCC-2014 Trabalho de Concluso de Curso - Novembro de 2014; Coordenadores: Prof. Dr. Lucas Moscato Profa. Dra. Larissa Driemeier; Prof. Dr. Arturo
Forner Cordero, Prof. Dr. Thiago de Castro Martins.
Escola Politcnica da Universidade de So Paulo; Depto. Engenharia Mecatrnica e de Sistemas Mecnicos; Disciplinas: PMR2500 e PMR2550
Av. Prof. Mello Moraes 2231

CEP 05508-900 So Paulo SP Visite o site: www.poli.usp.br/pmr graduao Trabalhos de Formatura

2. Reviso Bibliogrfica
Pantic [3], divide o reconhecimento de emoo em trs
etapas principais: a extrao de uma face da imagem, a
extrao de dados relativos a emoo e a classificao
destes dados.
Dada uma imagem de uma face, necessrio extrair os
dados relativos emoo da mesma, ou seja, representar
os dados da imagem original da face em um conjunto de
componentes que a caracterize, minimizando as
diferenas dentro de uma classe de emoes e
maximizando a diferena entre as classes [4]. Tal anlise
pode ser feita tanto extraindo informaes numa face
como um todo, de forma holstica, ou de forma
localizada, analisando-se somente alguns pontos que
tem uma maior importncia com relao a emoes [5].
Como apontado em [6], dois tipos distintos de
propriedades podem ser extrados de faces, propriedades
geomtricas e propriedades de aparncia. Os mtodos
baseados em propriedades geomtricas pontos
caractersticos na face, tais como o contorno dos olhos,
representando a forma e geometria das caractersticas
que se pretendem estudar. Em [3] e [7] cita-se o uso, em
imagens estticas, para a extrao de dados emoes, de
mtodos que se baseiam em pontos caractersticos da
face e em mapas previamente montados. J com relao
extrao de dados em vdeos, a abordagem feita ou
por fluxo tico, assim como tambm visto em [8], com
monitoramento de pontos caractersticos, ou por
mtodos tridimensionais [9], este ltimo desenvolvido
juntamente com o crescimento da oferta de tecnologias
que possibilitam a obteno de imagens tridimensionais
nos ltimos anos.
J em mtodos baseados em aparncia, buscam
mudanas na textura e mudanas tais como rugas na
face. Estes mtodos podem estudar tanto a face como
um todo ou regies de interesse especficas. Estudos na
rea se utilizam e desenvolvem estes mtodos, com [10]
e [11] se utilizando do mtodo de aparncia de
ondulaes de Gabor por exemplo. Outro mtodo que
pode ser utilizado e se encaixa nesta categoria o da
anlise de componente principal (PCA) e da anlise de
discriminante linear (LDA) [12].
Extrado os dados relativos emoo na face deve-se
classific-los em cada uma das emoes propriamente
ditas. Existem algoritmos que determinam a emoo em
cada um dos instantes do vdeo e aqueles que analisam
as expresses faciais correspondentes a uma emoo ao
longo de um perodo de tempo, e, assim, podemos
dividir tal classificao nas chamadas classificaes
instantneas e classificaes contnuas.
No caso da classificao instantnea, existem solues
baseadas em redes neurais, Support Vector Machines,
por cadeias de Markov ocultas e anlise de
discriminante lineares [3][9][10]. Existem tambm

classificaes baseadas em meta-algoritmos, como o


AdaBoost [10]. Em todos os casos revisados, a
classificao feita a partir de um modelo obtido da
aplicao da tcnica de inteligncia artificial sobre um
banco de dados emocional.
Por outro lado, a metodologia apresentada por
Gonalves, que se baseia no uso de superfcies
emocionais de Zeeman [13], pertence ao conjunto de
mtodos que no so imediatistas, ou seja, a emoo em
um vdeo no determinada por um instante e sim pelo
conjunto da srie.
3. Proposta
O sistema dever ser capaz de detectar faces, reconhecer
pessoas, reconhecer
emoes instantneas e,
principalmente, reconhecer estados emocionais.
Tambm dever ser possvel, atravs do sistema
retreinar, os algoritmos de classificao tanto pela
adio de novas pessoas para serem reconhecidas pelo
sistema quanto para a atualizao dos bancos de dados
de pessoas e emocional utilizado. A figura 1 mostra o
diagrama de casos de uso que representa os requistos
deste projeto.

Figura 1: Diagrama de casos de uso do sistema proposto.

desejvel tambm que o reconhecimento de emoes


se aproxime da taxa de acerto de uma pessoa comum, ou
seja, sem nenhum treinamento especfico. Estudos
mostram que a taxa de reconhecimento de emoes
varia de aproximadamente 55% at 95%, dependendo da
emoo avaliada [14].
3.1. Modelo
Um prottipo inicial do sistema foi desenvolvido para
que trs mtodos de reconhecimento instantneo de
emoes pudessem ser comparados eigenfaces,

TCC-2014 Trabalho de Concluso de Curso - Novembro de 2014; Coordenadores: Prof. Dr. Lucas Moscato Profa. Dra. Larissa Driemeier; Prof. Dr. Arturo
Forner Cordero, Prof. Dr. Thiago de Castro Martins.
Escola Politcnica da Universidade de So Paulo; Depto. Engenharia Mecatrnica e de Sistemas Mecnicos; Disciplinas: PMR2500 e PMR2550
Av. Prof. Mello Moraes 2231

CEP 05508-900 So Paulo SP Visite o site: www.poli.usp.br/pmr graduao Trabalhos de Formatura

fisherfaces e histogramas de padres binrios locais -,


alm de se possibilitar a familiarizao com o OpenCV
[15], biblioteca de viso computacional, e o JADE [16],
framework para o desenvolvimento de sistemas de
baseados em agentes, ferramentas principais para a
composio do sistema. Este prottipo tomou como base
o trabalho de concluso de curso desenvolvido em [17].
Os testes foram realizados utilizando-se imagens do
banco de dados emocional Cohn-Kanade estendido
[18][19]. Foram utilizadas imagens de 15 pessoas
distintas, sendo que cada uma delas possua uma
imagem prototpicas para as quatro emoes estudadas
neste projeto. O teste foi feito atravs da validao
cruzada, na qual o mtodo de reconhecimento
instantneo de emoo era treinado com 14 pessoas e a
restante era utilizada para a validao do treinamento.
As tabelas 1, 2 e 3 mostram os resultados dos testes
para, respectivamente, os mtodos de eigenfaces,
fisherfaces e histogramas de padres binrios locais.

Felicidade
Tristeza
Raiva
Medo
(%)
(%)
(%)
(%)
Felicidade
20,00
33,33
20,00
73,33
Tristeza
6,67
13,33
26,67
46,67
Raiva
20,00
6,67
0,00
46,67
Medo
0,00
26,67
6,67
53,33
Tabela 1: Matriz de confuso para o teste do mtodo eigenfaces.
Felicidade
Tristeza
Raiva
Medo
(%)
(%)
(%)
(%)
Felicidade
0,00
26,67
6,67
80,00
Tristeza
6,67
13,33
26,67
60,00
Raiva
0,00
6,67
6,67
46,67
Medo
13,33
33,33
13,33
60,00
Tabela 2: Matriz de confuso para o teste do mtodo fisherfaces.
Felicidade
Tristeza
Raiva
Medo
(%)
(%)
(%)
(%)
Felicidade
0,00
6,67
6,67
80,00
Tristeza
0,00
20,00
26,67
60,00
Raiva
13,33
20,00
20,00
73,33
Medo
6,67
20,00
0,00
46,67
Tabela 3: Matriz de confuso para o teste do mtodo histograma de
padres binrios locais.

O mtodo de eigenfaces foi o que teve o pior


desempenho dos mtodos comparados. Fisherfaces e o
mtodo de padres binrios de histogramas locais
tiveram desempenhos semelhantes, o primeiro com uma
melhor deteco de medo e o segundo com uma melhor
deteco de raiva. Por uma questo de maior facilidade
de manipulao do problema foi selecionado o mtodo
de fisherfaces para o projeto final do sistema.
Um ponto que deve ser ressaltado e foi observado em
[4] o fato de que ao se utilizar um destes algoritmos
treinado com um determinado banco de dados sobre
imagens de um segundo banco de dados, as taxas de

reconhecimento so inferiores. Em [4] foram observadas


taxas entre 40 e 50% de acerto para esta situao.
J o reconhecimento do estado emocional ser baseado
no modelo proposto em [13]. Neste modelo, a emoo
tratada como uma partcula que se desloca sobre uma
superfcie emocional. O movimento da partcula
resultado da aplicao de foras sobre as mesmas, as
quais so proporcionais ao quo prximo expresso
num dado instante do vdeo est de cada uma das
emoes prototpicas instantneas. A velocidade
da
partcula pode ser obtida atravs de (I), pela soma da
velocidade de deslizamento
com as velocidades
relativas na direo de cada uma das emoes estudadas
.

A velocidade da partcula na direo de cada emoo


paralela superfcie emocional e proporcional sada
do mtodo de reconhecimento instantneo de emoo,
sada a qual passa por um filtro de Kalman com o intuito
de minimizar rudos e as dinmicas rpidas do sistema.
3.2. Arquitetura
A arquitetura do sistema baseada em mltiplas linhas
de execuo implementadas por agentes. Cada agente
uma entidade independente do sistema, sendo capaz de
enviar e receber mensagens, alm de possuir
comportamentos, os quais definem as suas
funcionalidades. Neste projeto foi utilizado o JADE [16]
Java agent development framework , um arcabouo
baseado em Java para o desenvolvimento de sistemas de
agente.
Existem quatro fluxos principais de mensagens que
foram projetados, um deles referente ao reconhecimento
de emoo a partir de dados provenientes de uma
webcam e os outros trs referentes aos processos de
treinamento de reconhecimento de pessoa e de emoo.
A semntica do agente foi priorizada, centralizando
responsabilidades, de forma que, por exemplo, toda
aquisio de imagens feita exclusivamente pelo agente
de imagens. A figura 2 mostra os agentes existentes no
sistema e as relaes existentes entre eles, todas as quais
realizadas atravs do envio e recebimento de
mensagens.
Alm disso, a arquitetura do sistema foi projetada de
forma a promover a modularizao e o encapsulamento
de funcionalidades. Todas as funcionalidades que so
necessrias para o funcionamento de um agente
separada em pacotes que so divididos pelo conjunto de
problemas aos quais os mesmos so destinados. Desta
forma, a deteco de faces, o reconhecimento de pessoas

TCC-2014 Trabalho de Concluso de Curso - Novembro de 2014; Coordenadores: Prof. Dr. Lucas Moscato Profa. Dra. Larissa Driemeier; Prof. Dr. Arturo
Forner Cordero, Prof. Dr. Thiago de Castro Martins.
Escola Politcnica da Universidade de So Paulo; Depto. Engenharia Mecatrnica e de Sistemas Mecnicos; Disciplinas: PMR2500 e PMR2550
Av. Prof. Mello Moraes 2231

CEP 05508-900 So Paulo SP Visite o site: www.poli.usp.br/pmr graduao Trabalhos de Formatura

o reconhecimento de emoes, a interface grfica e as


funes de treinamento esto separados em pacotes
distintos.

Figura 3: Interface grfica do sistema final.


Figura 2: Agentes que compem o sistema.

Este tipo de arquitetura facilita a leitura e entendimento


do cdigo, com partes semanticamente coerentes. Alm
disso, cdigos encapsulados facilitam a futura
manuteno e ampliao do sistema.
4. Resultados
O ponto inicial do desenvolvimento do projeto final foi
a reestruturao do sistema desenvolvido no prottipo
inicial, visando principalmente a modularidade e o
encapsulamento de cdigo. No projeto final, o sistema
de agentes e a sistema de mensagens existente foram
reformulados, com a adio de todos os fluxos
necessrios para se atender aos requisitos de projeto
previamente estabelecidos.
Na figura 3 esto mostrados os trs ambientes distintos
construdos para o sistema, pelos quais o usurio pode
monitorar as sadas e iniciar o processamento de certos
fluxos no sistema. No primeiro ambiente possvel
visualizar a imagem que est sendo obtida da webcam,
como tambm o retngulo que representa a rea da
imagem na qual uma face foi encontrada. possvel
ainda, no primeiro ambiente, capturar um frame da
webcam, reiniciar o movimento da partcula do modelo
de reconhecimento de emoes e realizar os
treinamentos tanto para a adio de uma nova pessoa
quanto seleo de um novo arquivo com a listagem de
imagens de emoes prototpicas ou de faces de pessoas.
O segundo ambiente conta com a visualizao dos
grficos de emoo ao longo do tempo, com o sinal
antes e depois da aplicao do filtro de Kalman. J o
terceiro ambiente conta com a representao do
movimento da partcula sobre a superfcie emocional.

4.1. Estudo de Desempenho


A fim de se avaliar o desempenho do sistema de
reconhecimento de emoes realizaram-se dois testes de
tempo de processamento necessrio para a realizao
das tarefas bsicas do reconhecimento de emoo, um
utilizando-se do sistema de agentes do JADE e outro
sem o uso do framework. A tabela 4 contm os
resultados deste estudo.

Faces

Pessoas

Emoo
instantnea

Emoo
Contnua

Total

Sem
52,254
8,141
44,901
13,254
118,549
JADE
Com
66,873
15,817
55,775
16,056
154,521
JADE
Tabela 4 Tempos em milissegundos de cada uma das etapas de
reconhecimento do sistema.

A anlise da tabela 4 leva a concluso de que apesar de


uma piora do desempenho em termos absolutos, a
introduo do JADE que possibilita a integrao do
sistema e que permite processamentos paralelos do
sistema, o que justifica o seu uso. Pela restrio de
desempenho do sistema deve-se limitar a taxa de captura
de imagens pelo agente de imagem. Adotou-se, assim,
uma taxa de amostragem de dados de trs quadros por
segundo para o sistema final.
4.2. Otimizao do filtro de Kalman
Foram realizados dois experimentos distintos para a
otimizao do filtro de Kalman. O primeiro foi realizado
treinando-se o reconhecimento instantneo de emoo
com o banco de dados CK+ e realizando-se o processo
de otimizao por recozimento simulado, com vdeos do
banco de dados eNTERFACE05. J no segundo
relaciona-se um treinamento do algoritmo de
reconhecimento instantneo de emoo com quadros
manualmente
selecionados
de
vdeos
do
eNTERFACE05 que foram interpretados como os mais
representativos das emoes com a otimizao realizada

TCC-2014 Trabalho de Concluso de Curso - Novembro de 2014; Coordenadores: Prof. Dr. Lucas Moscato Profa. Dra. Larissa Driemeier; Prof. Dr. Arturo
Forner Cordero, Prof. Dr. Thiago de Castro Martins.
Escola Politcnica da Universidade de So Paulo; Depto. Engenharia Mecatrnica e de Sistemas Mecnicos; Disciplinas: PMR2500 e PMR2550
Av. Prof. Mello Moraes 2231

CEP 05508-900 So Paulo SP Visite o site: www.poli.usp.br/pmr graduao Trabalhos de Formatura

Otimizao

Validao

Vdeo

Emoo

Vdeo

Emoo

s4_ha_2.avi

Alegria

s2_ha_2.avi

Alegria

s4_ha_4.avi

Alegria

s29_ha_3.avi

Alegria

s12_ha_4.avi

Alegria

s43_ha_1.avi

Alegria

s25_ha_2.avi

Alegria

s25_fe_2.avi

Medo

s24_fe_3.avi

Medo

s38_fe_3.avi

Medo

s36_fe_2.avi

Medo

s43_fe_2.avi

Medo

s42_fe_1.avi

Medo

s38_an_1.avi

Raiva

s24_fe_4.avi

Medo

s43_an_2.avi

Raiva

s43_an_2.avi

Raiva

s43_an_3.avi

Raiva

s14_an_1.avi

Raiva

s43_an_4.avi

Raiva

s4_an_2.avi

Raiva

s42_sa_1.avi

Tristeza

s4_an_5.avi

Raiva

s43_sa_1.avi

Tristeza

s4_sa_1.avi

Tristeza

s43_sa_3.avi

Tristeza

s36_sa_2.avi

Tristeza

s43_sa_4.avi

Tristeza

s33_sa_2.avi

Tristeza

s43_sa_5.avi

Tristeza

s29_sa_1.avi

Tristeza

Tabela 5 Vdeos utilizados na otimizao e validao do filtro de


Kalman.

Os parmetros da tabela 6 foram os utilizados para o


recozimento simulado, escolhidos de forma a capturar a
faixa de iteraes que leva a minimizao do resultado.
50
10
0.9995

superior. Um resultado similar foi observado no artigo


[4], no qual o reconhecimento instantneo por um
mtodo de textura foi validado entre bases de dados de
emoes distintas e os resultados desta validao
tiveram resultados significativamente piores do que
aqueles provenientes da validao dentro do mesmo
banco de dados.

Energia por Iterao


600
500
400
300
200
100
0
-500

Energia

utilizando-se vdeos do mesmo banco. Nos dois testes,


para a otimizao, foi utilizado o mesmo conjunto de 16
vdeos, com quatro para cada uma das emoes
avaliadas, contando com um total de 1200 frames
analisados. Alm da otimizao, foi realizada uma etapa
de validao dos dados, etapa de verificao dos
parmetros obtidos na otimizao. Na validao foram
utilizados um total de 1266 frames. Os vdeos utilizados
nessas duas etapas esto na tabela 5.

500

1500

2500

3500

Iterao
eNTERFACE'05

CK+

Figura 4 Variao da energia nos dois testes de otimizao.

Os resultados deste experimento podem ser observados


na tabela 7. A validao resultou em baixas
porcentagens de acerto para ambos os experimentos. A
otimizao, por outro lado, leva melhor soluo dentro
de um universo restrito de dados.
Acertos na

Acertos na

otimizao(%)

validao(%)

CK+

45,1

20,1

eNTERFACE05

72,5

31,4

Tabela 7 Resultados da otimizao.

4.3. Experimentos com pessoas


Com o intuito de se comparar o desempenho do sistema
desenvolvido com a avaliao de pessoas reais
desenvolveu-se um programa e um protocolo de testes.
O programa, como mostra a figura 5, composto por
um tocador de vdeo e com botes representantes das
quatro emoes estudadas.

Tabela 6 Parmetros do recozimento simulado

Nota-se, pela energia mdia observada na otimizao


pela figura 4, que as imagens de treinamento utilizadas
no reconhecimento instantneo tm impacto no
reconhecimento contnuo. Claramente a otimizao
utilizando-se de vdeos do eNTERFACE05, com o
treinamento do reconhecimento instantneo de emoes
feito com imagens do mesmo banco teve um resultado

Figura 5 Programa de testes com pessoas.

TCC-2014 Trabalho de Concluso de Curso - Novembro de 2014; Coordenadores: Prof. Dr. Lucas Moscato Profa. Dra. Larissa Driemeier; Prof. Dr. Arturo
Forner Cordero, Prof. Dr. Thiago de Castro Martins.
Escola Politcnica da Universidade de So Paulo; Depto. Engenharia Mecatrnica e de Sistemas Mecnicos; Disciplinas: PMR2500 e PMR2550
Av. Prof. Mello Moraes 2231

CEP 05508-900 So Paulo SP Visite o site: www.poli.usp.br/pmr graduao Trabalhos de Formatura

Cada um dos voluntrios do experimento assistiu trs


vezes a dois vdeos distintos (A e B), cada um com
menos de 30 segundos de durao. Enquanto assistia ao
vdeo o indivduo deveria pressionar e segurar o boto
correspondente a uma emoo caso julgasse que a
pessoa do vdeo a estivesse apresentando. Os vdeos
foram passados sem udio para que a avaliao fosse
feita somente atravs da interpretao de expresses
faciais.
A figura 6 mostra os resultados obtidos para o teste. A
correlao entre o vdeo A e a mdia de testes foi de
36,01% enquanto para o vdeo B a correlao foi de
66,77%.

Figura 6 Resultados para os experimentos com pessoas.

5. Concluso
Existem deficincias tanto com relao ao mecanismo
de reconhecimento instantneo de emoo quanto o do
mecanismo de reconhecimento contnuo de emoo.
Aquele teve sua deficincia apontada principalmente
durante a otimizao dos parmetros de Kalman, se
apresentando bastante sensvel a mudanas do conjunto
analisado. Este ainda necessita de aprimoramentos
referentes ao movimento de longa durao da partcula.
Mesmo com limitaes, em vdeos de curta durao
observou-se uma tendncia na classificao das
emoes por pessoas e isto permitiu a comparao com
a sada do sistema. O teste com pessoas reais mostrou
que existe um grau de compatibilidade entre aquilo que
percebido por um ser humano e aquilo que estimado
pelos algoritmos de classificao, traduzido numa taxa
de acerto de 66,77% para o vdeo que obteve uma taxa
de correlao mais elevada.
6. Trabalhos Futuros
Os resultados obtidos neste projeto apontam para a
necessidade de aprimoramento dos mtodos utilizados

tanto do reconhecimento contnuo e instantneo de


emoes. Com relao ao reconhecimento instantneo, a
utilizao de mtodos baseados em geometria uma
opo. J com relao aos mtodos contnuos existe a
necessidade de aprimorar o movimento de volta da
partcula, uma vez que [13] s estudou o movimento da
partcula em vdeos curtos, sem contar com efeitos de
vibrao e instabilidades que podem ser gerados.

AGRADECIMENTOS
Agradeo ao professor Marcos Ribeiro Pereira-Barretto
por toda a orientao e tempo que disponibilizou para
me ajudar ao longo deste projeto.

Referncias Bibliogrficas
[1] EKMAN, P. A Linguagem das Emoes. So Paulo:
Lua de Papel, 2011.
[2] MEHRABIAN, A. Communication Without Words.
Psychology Today, v. 2, n. 4, p. 53-56, 1968.
[3] PANTIC, M.; ROTHKRANTZ, L. J. M. Automatic
Analysis of Facial Expressions: The State of Art. IEEE
Transactions on Pattern Analysis and Machine
Inteligence, Dezembro 2000. 1424-1445.
[4] SHAN, C.; GONG, S.; MCOWAN, P. W. Facial
expression recognition based on Local Binary Patterns:
A comprehensive study. Image and Vision Computing,
p. 803-816, 2009.
[5] DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern
Classification. 2 Edio, 2001.
[6] LI, S. Z.; Jain A. K.. HandBook of Face
Recognition. Springer, 2005.
[7] HAMM, J. et al. Automated Facial Action Coding
System for dynamic analysis of facial expressions in
neuropsychiatric disorders. Journal of Neuroscience
Methods, 2011. 237-256.
[8] DONATO, G. et al. Classifying Facial Actions.
IEEE Transactions on Pattern Analysis and Machine
Intelligence, Outubro 1999.
[9] LIU, S.-S.; TIAN, Y.-T.; LI, D. New Research
Advances of Facial
Expression Recognition.
Proceedings of the Eighth International Conference on
Machine Learning and Cybernetics, Baoding, Julho
2009. 1150-1155.
[10] VALSTAR, M.; PANTIC, M. Fully Automated
Facial Action Unit Detection and Temporal Analysis.
Proceedings of the 2006 Conference on Computer
Vision and Pattern Recognition Workshop, 2006.
[11] DU, S.; TAO, Y.; MARTINEZ, A. M. Compound
facial expressions of emotion. Proceedings of the
National Academy of Sciences Early Edition, 28 fev.
2014. 1-9.
[12] BARTLETT, M. S. et al. Recognizing Facial
Expression: Machine Learning and Application to

TCC-2014 Trabalho de Concluso de Curso - Novembro de 2014; Coordenadores: Prof. Dr. Lucas Moscato Profa. Dra. Larissa Driemeier; Prof. Dr. Arturo
Forner Cordero, Prof. Dr. Thiago de Castro Martins.
Escola Politcnica da Universidade de So Paulo; Depto. Engenharia Mecatrnica e de Sistemas Mecnicos; Disciplinas: PMR2500 e PMR2550
Av. Prof. Mello Moraes 2231

CEP 05508-900 So Paulo SP Visite o site: www.poli.usp.br/pmr graduao Trabalhos de Formatura

Spontaneous Behavior.
[13] GONALVES, R. A. M. et al. A Model For
Interference of Emotional State Based on Facial
Expressions. Journal of Brazillian Computer Society,
2012.
[14] RUSSEL, J. A. Is There Universal Recognition of
Emotion From Facial Expression? A Review of the
Cross-Cultural Studies. Psychological Bulletin, v. 115,
p. 102-141, 1994.
[15] OPENCV. Disponivel em: <http://opencv.org/>.
Acesso em: 16 mar. 2014.
[16] JADE. Disponivel em: <http://jade.tilab.com/>.
Acesso em: 06 abr. 2014.

[17] CASSALES, L. F. M. S.; COSTA, L. C.;


PEREIRA-BARRETTO, M. R. Reconhecimento de
Face. Escola Politcnica da USP. So Paulo. 2013.
[18] LUCEY, P. et al. The Extended Cohn-Kanade
Dataset (CK+): A complete dataset for action unit and
emotion-specified expression. IEEE, 2010. 94-101.
[19] KANADE, T.; COHN, J. F.; TIAN, Y.
Comprehensive database for facial expression analysis.
Proceedings of the Fourth IEEE International
Conference on Automatic Face and Gesture
Recognition, Grenoble, 2000. 46-53.

TCC-2014 Trabalho de Concluso de Curso - Novembro de 2014; Coordenadores: Prof. Dr. Lucas Moscato Profa. Dra. Larissa Driemeier; Prof. Dr. Arturo
Forner Cordero, Prof. Dr. Thiago de Castro Martins.
Escola Politcnica da Universidade de So Paulo; Depto. Engenharia Mecatrnica e de Sistemas Mecnicos; Disciplinas: PMR2500 e PMR2550
Av. Prof. Mello Moraes 2231

CEP 05508-900 So Paulo SP Visite o site: www.poli.usp.br/pmr graduao Trabalhos de Formatura

SYSTEM FOR THE IDENTIFICATION OF EMOTIONS BY FACIAL EXPRESSIONS WITH LIVE OPERATION

Bruno Tinen

tinen.bruno@gmail.com
Advisor: Prof. Dr. Marcos Ribeiro Pereira-Barretto

marcos.barretto@gmail.com

ABSTRACT
Facial expressions are a clear picture of what happens in someones conscious and
unconscious mind in a given situation, having a fundamental role in every social
interaction. The emotions are a direct cause of the change in the neurobiological state
of a person, particularly, modifying the human expressions. Aiming social robots, the
adequate interpretation by them of the emotions experienced by the human being with whom
they are in contact is indispensable, so that the adequate reactions are made and humans
and robots could live peacefully together. Having, as the objective, the automatic
identification of emotions by facial expressions, main focus of this project will be in
the frame-by-frame analysis of video signals obtained from an online camera and in the
production of an adequate reaction for the social robot. The result is monitored by an
interface that shows to the user the video that is being analyzed and how close an
emotion is of a given expression, regarding both the instantaneous and continuous
dynamics. There are three main questions to be solved so that emotion analysis could be
made possible: the face detection, the emotion extraction and the emotion analysis
itself. These problems will be addressed by the use of cascade Haar classifiers for the
face
detection
algorithms,
by
texture-based
methods
for
the
instant
emotion
classification and by the Dynamic Emotional Surface Modal for the emotion extraction in
human beings over the time. Optimization tests run over the Kalman filters used by the
continuous classifier and the validation tests of the system done with the cooperation of
volunteers resulted in an approximate best of 70% correct classification. There still are
improvements that could be applied to this project and the correct choice in each of the
blocks that compose the solution could lead to a performance similar to the one presented
by a person without a specific training in emotion identification.
KEYWORDS: Emotions
surface.

identification,

facial

expression,

automatic

system,

emotional

TCC-2014 Trabalho de Concluso de Curso - Novembro de 2014; Coordenadores: Prof. Dr. Lucas Moscato Profa. Dra. Larissa Driemeier; Prof. Dr. Arturo
Forner Cordero, Prof. Dr. Thiago de Castro Martins.
Escola Politcnica da Universidade de So Paulo; Depto. Engenharia Mecatrnica e de Sistemas Mecnicos; Disciplinas: PMR2500 e PMR2550
Av. Prof. Mello Moraes 2231

CEP 05508-900 So Paulo SP Visite o site: www.poli.usp.br/pmr graduao Trabalhos de Formatura

Vous aimerez peut-être aussi