Académique Documents
Professionnel Documents
Culture Documents
ESCUELA SUPERIOR DE
INGENIERA INFORMTICA
Departamento de Sistemas Informticos
Autor:
Tutor:
Septiembre de 2013
Resumen
Este documento recoge el trabajo final del Mster en Tecnologas Informticas
Avanzadas de la Escuela Superior de Ingeniera Informtica de la Universidad de
Castilla-La Mancha durante el curso acadmico 2012/2013. El trabajo realizado
ofrece una descripcin de una futura tesis doctoral centrada en el mbito de la
rehabilitacin de la disglosia. Para ello se ha realizado una investigacin en torno a las
necesidades tecnolgicas para el tratamiento de la disglosia y las nuevas herramientas
existentes que puedan ser de aplicacin.
Se describe aqu la importancia de la comunicacin en el desarrollo infantil, as como
las limitaciones que originan los trastornos del habla y del lenguaje. Se recopilan los
diferentes tipos de trastornos en estos mbitos, destacando entre todas ellas la
Disglosia, una alteracin de los rganos fono-articulatorios) que causa trastorno del
habla y lenguaje. En este trabajo se presentan los diferentes tipologas as como
tratamientos a aplicar para cada una de ellas. Adems, se especifica que el
tratamiento ms recomendado por logopedas son los ejercicios articulatorios de
fonemas y palabras y las praxias para la movilidad orofacial (labios, mejillas, boca,
lengua y mandbula), que forman parte de la terapia miofuncional.
Se describe el estado del arte de los recursos tecnolgicos existentes para la
intervencin en trastornos del habla y la voz, centrndose todos ellos en los ejercicios
articulatorios. Sin embargo, ninguno de ellos aporta ninguna de las propuestas
estudiadas aporta una solucin en el mbito de la movilidad orofacial. Por eso se hace
patente una necesidad que ha de ser satisfecha por la tecnologa a fin de realizar la
monitorizacin facial orientada a las praxias de movilidad orofacial.
Se analizan dos estndares en el mbito de la monitorizacin facial (MPEG-4 FBA y
CANDIDE-3), as como las tecnologas identificadas que podran dar soporte a la
solucin buscada (Face Tracking SDK for Kinect for Windows y Visage SDK FaceTrack)
comparndolas para determinar cul de ellas se adapta mejor al dominio del
problema. La conclusin obtenida tras el anlisis realizado considerando tanto
caractersticas tcnicas como del dominio es que Face Tracking SDK for Kinect for
Windows es la alternativa que mejor se adapta para el desarrollo de una solucin
integral.
Summary
This document presents the final work to be submitted for the Master in Advanced
Computer Technologies of the College of Engineering at the University of Castilla-La
Mancha during the academic year 2012/2013. This research focuses on the
technological needs for the treatment of dysglossia as well as on the new technologies
tools that can be applied to meet this need.
We describe here the importance of the communication for childs development, and
the limitations that speech disorders and language can cause. In this document,
information about different types of disorders related to these areas is reported,
highlighting among them the dysglossia, an impairment of the phono-articulatory
organs that cause speech and language disorder. The different types of dysglossia as
well as well as the treatments to apply to each of them are described in this work.
Moreover, it is also described that speech therapists recommend as the most
appropriate treatment exercises is the articulation of phonemes and words and
orofacial praxis mobility (lips, cheeks, mouth, tongue and jaw).
We explain the state of the art about the technological resources available for
intervention in disorders of speech and voice. Despite the need of articulation
exercises, none of the analyzed proposals provides children and specialists with some
kind of solution or functionality in the area of orofacial mobility. Therefore, there is a
clear technological need to be satisfied: the monitoring-oriented facial mobility
orofacial praxis.
Two standards are analyzed in the field of facial monitoring (MPEG-4 FBA and
CANDIDE-3) and different technologies (Face Tracking SDK for Kinect for Windows
SDK FaceTrack Visage) that could support the desired solution are analyzed to
determine which one is best suited to the problem domain. To sum up, Face Tracking
SDK for Kinect for Windows is the alternative that provides higher support regarding
to the analyzed features related to the domain and the technology.
iii
Agradecimientos
Muchas gracias a mi tutora, Elena Navarro, por toda su ayuda y sobre todo por el
trabajo de orientacin que ha tenido que realizar en los inicios de este trabajo final de
mster, ya que ha sido fundamental para encontrar un rea de investigacin muy
novedosa y que me ha apasionado. El alto nivel de exigencia de Elena me ha permitido
desarrollar un trabajo de mayor calidad, por lo que el esfuerzo ha merecido la pena.
Gracias a mi esposa Ana, mi hija Ftima y mi hijo Alejandro por todo su apoyo y
comprensin. Os pido perdn por todo el tiempo que no os he dedicado.
ndice de Contenidos
Resumen ................................................................................................................... i
Summary ................................................................................................................ iii
Agradecimientos ........................................................................................................ v
ndice de Contenidos ............................................................................................... vii
ndice de Figuras ......................................................................................................xi
ndice de Tablas ..................................................................................................... xiii
1
1.2
1.3
1.4
1.5
Cientfica .............................................................................................................. 1
1.6
1.6.1
1.6.2
Introduccin ............................................................................................... 7
2.2
2.3
2.4
2.5
2.6
2.7
Introduccin ............................................................................................. 11
3.2
3.3
3.3.1
3.3.2
3.3.3
Tratamiento ........................................................................................ 17
3.3.4
3.4
Disglosia ................................................................................................... 19
3.4.1
Disglosia labial.............................................................................................. 21
Disglosia mandibular .................................................................................... 23
Disglosia lingual ........................................................................................... 23
Disglosia palatal............................................................................................ 24
3.4.3
3.5
Conclusiones ............................................................................................. 34
Introduccin .............................................................................................. 35
4.2
4.2.1
4.2.2
CANDIDE ........................................................................................... 39
4.3
4.3.1
ndice de Contenidos ix
4.3.3
4.4
4.5
Conclusiones ............................................................................................ 58
4.5.1
5
Introduccin ............................................................................................. 61
5.2
5.3
5.4
Planificacin ............................................................................................. 62
5.5
Conclusiones ............................................................................................ 65
5.5.1
5.5.2
Bibliografa ...................................................................................................... 67
ndice de Figuras
Figura 3-1 Imagen interna de la boca ...................................................................... 18
Figura 3-2 Ejercicios y Juegos para la Terapia Miofuncional .................................... 26
Figura 3-3 Praxias para la Movilidad Orofacial (1 de 2) ............................................ 27
Figura 3-4 Praxias para la Movilidad Orofacial (2 de 2) ............................................ 28
Figura 3-5 Captura de Pantalla de Los Sonidos del Habla ..................................... 29
Figura 3-6 Captura de Pantalla de Phonetics ........................................................ 29
Figura 3-7 Captura de Pantalla de Metavox .......................................................... 30
Figura 3-8. Captura de Pantalla de Speech Viewer ................................................ 31
Figura 3-9 Captura de Pantalla de Globus. .............................................................. 32
Figura 3-10 Captura de Pantalla de Prelinga ......................................................... 33
Figura 3-11 Captura de Pantalla de Vivo. ................................................................ 33
Figura 3-12 Captura de Pantalla de Vocaliza. .......................................................... 33
Figura 3-13 Captura de Pantalla de ReFoCas. ......................................................... 34
Figura 4-1 Puntos Caracterstica (FPs) definidos en MPEG-4 FBA ............................ 38
Figura 4-2 Face Animation Parameter Units (FAPU) ................................................. 39
Figura 4-3 Versiones de CANDIDE .......................................................................... 40
Figura 4-4 Microsoft Kinect for Windows ................................................................. 42
Figura 4-5 Componentes de Sensor Microsoft Kinect ............................................... 43
Figura 4-6 Espacio Cmara .................................................................................... 45
Figura 4-7 Puntos 2D seguidos por Face Tracking SDK ........................................... 46
Figura 4-8 ngulos que determinan postura de la cabeza para Face Tracking SDK .. 46
Figura 4-9 Modelo 3D de Visage SDK FaceTrack ..................................................... 51
Figura 5-1: Actores en el proyecto de tesis ............................................................... 63
Figura 5-2: Distribucin temporal de las actividades ............................................... 64
xi
ndice de Tablas
Tabla 3-1 Actividades Funcionales y de Participacin en Sociedad en riesgo. ............ 12
Tabla 3-2 Hitos del desarrollo del lenguaje infantil y banderas rojas. ....................... 16
Tabla 4-1 Grupos de FAPs. ..................................................................................... 36
Tabla 4-2 Listado de Visemas. ................................................................................ 37
Tabla 4-3 FAPUs en CANDIDE-3 ............................................................................. 41
Tabla 4-4 Valores de ngulos de la postura de la cabeza para Face Tracking SDK .... 47
Tabla 4-5 Animation Units en Face Tracking SDK y correspondencia con Candide3 . 48
Tabla 4-6 Shape Units en Face Tracking SDK y correspondencia con Candide3 ....... 49
Tabla 4-7 Comparativa entre diferentes drivers para Kinect ..................................... 52
Tabla 4-8 Comparativa entre diferentes entornos de procesamiento de imgenes ..... 53
Tabla 4-9 Caracterizacin de la tecnologa ............................................................... 54
Tabla 4-10 Caractersticas de las tecnologas analizadas ......................................... 55
xiii
Captulo 1
1 Currculum Vitae
1.1
Titulacin acadmica
Becas disfrutadas
http://proj-scam.web.cern.ch/proj-scam/
1
2 Currculum Vitae
1.6
Otros mritos
Profesin o cargo
Director Gerente
desempeado
Nombre de la
empresa
Tipo de empresa o
sector
Fechas
Profesin o cargo
Socio fundador
desempeado
Funciones y
responsabilidades
principales
(SIGEM),
Facturacin
Electrnica
en
la
Nombre de la
empresa
Tipo de empresa o
sector
Fechas
Profesin o cargo
desempeado
Funciones y
responsabilidades
principales
Planificacin
de
los
Sistemas
Informticos:
CRM,
Nombre de la
empresa
Tipo de empresa o
sector
Fechas
Profesin o cargo
desempeado
www.delanto.com
Funciones y
responsabilidades
principales
Negocio.
Gestin,
Coordinacin
Planificacin
Nombre de la
Desarrollo de negocio.
Endesa Net Factory - Madrid
empresa
Tipo de empresa o
sector
de
Proyectos,
4 Currculum Vitae
Fechas
Profesin o cargo
Jefe de proyecto IT
desempeado
Funciones y
responsabilidades
principales
marketing.
Desarrollo de negocio
Nombre de la
empresa
Tipo de empresa o
sector
Fechas
Profesin o cargo
Ingeniero Software
desempeado
Funciones y
responsabilidades
principales
Intranet de la Divisin.
Nombre de la
empresa
Ginebra
Tipo de empresa o
sector
Fechas
Profesin o cargo
Webmaster
desempeado
Funciones y
responsabilidades
principales
Responsable
paso
explotacin
(coordinacin
equipo
humano).
Instalacin
administracin
de
servidores
web
Nombre de la
empresa
Tipo de empresa o
sector
Captulo 2
2 Asignaturas de mster realizadas
2.1
Introduccin
De las asignaturas ofertadas por este mster, el alumno seleccion aquellas que, o
bien encuadraban mejor con su lnea de investigacin o, en su defecto, le resultaban
de inters personal. Las asignaturas son las siguientes:
2.2
campos
(tecnologas):
MDA,
MOF,
compilacin
de
modelos,
2.5
Redes Multimedia
Aplicaciones
Multimedia,
Calidad
de
Servicio
(QoS),
Captulo 3
3 Estado del Arte
3.1
Introduccin
detectar un nio con una posible alteracin del habla o del lenguaje.
Se explican tambin aspectos relacionados con las tcnicas empleadas en el
tratamiento de estos trastornos, donde en prcticamente todos los casos se
recomienda una terapia funcional, o estimulacin del lenguaje. Se ofrecen datos
obtenidos de estudios, sobre la duracin, encargado y caractersticas de las terapias.
Se explica la importancia cada vez mayor, segn terapeutas y logopedas, de la terapia
miofuncional para corregir trastornos del habla originados por trastornos orofaciales.
Uno de estos trastornos orofaciales es la disglosia. Se trata de una alteracin de los
rganos fono-articulatorios, que causa trastorno del habla y lenguaje. Se explica en
este captulo en qu consiste, las diferentes tipologas as como los diferentes
tratamientos a aplicar para cada una de ellas. Tambin se hace un recopilatorio de
material y recursos encontrados que se consideran de inters, para ver de una manera
ms prctica y visual en qu consiste el tratamiento para las disglosias.
Por ltimo, se muestra el estado del arte en cuanto a recursos tecnolgicos para la
intervencin en trastornos del habla y la voz, concluyendo con las necesidades
tecnolgicas no satisfechas en cuanto al tratamiento de estos trastornos y en concreto
de la disglosia.
11
3.2
disminuyen
Ejemplos Especficos
Experiencias sensoriales intencionadas: escuchar.
Aprender a leer.
Aprender a escribir.
Llevar a cabo una nica tarea.
Comunicacin
Comunicacin-Produccin.
Conversacin y uso de aparatos y tcnicas de
comunicacin.
Interacciones Interpersonales Bsicas (respeto,
tolerancia, actitud crtica, socializacin).
Interacciones y Relaciones
Interpersonales
3.3
Una vez hemos distinguido ambos conceptos podemos decir que cuando una persona
tiene problemas para entender a otras (lenguaje receptivo) o para compartir
pensamientos, ideas o sentimientos (lenguaje expresivo), entonces tiene trastorno del
lenguaje. Sin embargo, si una persona no es capaz de producir sonidos correctamente
o con fluidez, o tiene problemas en su voz, entonces tiene un trastorno del habla.
Tal y como explica Bolte y Rojas [4], los trastornos del habla y del lenguaje son una
patologa relativamente frecuente en la infancia, y que preocupa a padres y
profesionales de la salud. Tienen una prevalencia cercana al 5-8% en preescolares y a
un 4% en escolares. En trminos generales, estos trastornos suelen presentar un
curso crnico; as sin un diagnstico y tratamiento adecuados, la patologa persiste en
el 40% 60% de los casos.
Por lo tanto, al enfrentarse a un nio que se comunica mal, el primer paso es
determinar si ste presenta un trastorno del habla o un trastorno del lenguaje, o bien
su problema es secundario a alteraciones a nivel fono articulatorio o psicolingstico.
A continuacin se muestra la clasificacin de los diferentes trastornos segn Bolte y
Rojas[4]:
Trastorno de la articulacin:
o
Espasmofemia:
Alteracin
de
la
fluidez
normal
de
las
palabras,
Los
afectados
muestran
alteraciones
persistentes
en
la
Trastornos psicolingsticos:
Espectro autista: Suelen iniciarse en menores de tres aos de vida, siendo 3-4
veces ms frecuente en pacientes de sexo masculino. Se caracterizan por una
alteracin en la interaccin social del individuo, con comportamientos
compulsivos y rituales, y actividad motora estereotipada y repetitiva. Estos
pacientes presentan trastornos del lenguaje, con un desarrollo del mismo
alterado y atrasado, y presencia de ecolalia, mal uso de pronombres, voz
montona o atnica.
Banderas Rojas
Recin
nacido
No responde a sonidos
Llora
2-4 meses
Vocaliza
6 meses
Responde a su nombre
No vocaliza ni balbucea
Balbucea
9 meses
12 meses
12-24 meses
No practica palabras
Entiende frases
15 a 18 meses:
- no dice palabras
36-48 meses
36 meses:
Inteligibilidad 50%
- entonacin plana
- repite sistemticamente
48 meses:
Inteligibilidad 75%
48-60 meses
Inteligibilidad 100%
Cuenta historias
6-7 aos
Antropometra.
Presencia de dismorfias.
Evaluar
rganos
fonatorios,
especialmente
en
relacin
malformaciones
Alteraciones
en
examen
fsico
segmentario
(ejemplo:
macroglosia,
severa
clnicos,
audiometra,
potenciales
evocados
auditivos2,
Imgenes en vivo del sistema nervioso central en general y del cerebro en particular.
3.4. Disglosia 19
Voz.
Lenguaje.
Mejorar
las
funciones
neurovegetativas
(respiracin,
succin,
deglucin
masticacin).
3.4
Disglosia
Fisura del labio inferior: Suele ir acompaada de labio leporino superior. Puede
producirse por un traumatismo. Las dificultades articulatorias son diversas,
generalmente distorsiones, dependiendo de la gravedad de la lesin y de las
posibilidades de movilizacin de los labios.
Parlisis facial: Una variedad amplia de patologas puede producir parlisis facial
en nios y jvenes. Puede afectar a un lado o a ambos. En el segundo caso la
articulacin fonemtica est considerablemente afectada en los siguientes
fonemas: /f/ en lugar de /p/, /n/ en lugar de /m/ y /o/ y /u/.
Heridas labiales.
Neuralgia del Trigmino: Inflamacin muy dolorosa del nervio trigmino que causa
dolor facial severo y espasmo de los msculos faciales.
Disglosias Mandibulares
Se trata de un trastorno en la articulacin de los fonemas debido a una alteracin en
la forma o movimiento de uno o varios maxilares. Las causas ms probables son:
(condiciones
hereditarias,
gigantismo,
acromegalia,
amgdalas
3.4. Disglosia 21
Disglosias Palatales
Alteracin en la articulacin de los fonemas debido a malformaciones orgnicas del
paladar seo y del velo del paladar. Como causa probable se puede citar la fisura
palatina. Se trata de una malformacin congnita en la que las dos mitades del
paladar no se unen en la lnea media. La fisura puede afectar al velo del paladar, al
paladar seo y a la apfisis alveolar del maxilar superior. Los trastornos articulatorios
de las hendiduras palatinas y su origen son:
Golpe de glotis: La articulacin de los fonemas /p/, /t/, /k/, /b/, /d/ y /g/ es
sustituida por un pequeo ruido, con o sin vibracin.
Soplo nasal: Es el escape de aire por la nariz durante la emisin de las palabras,
produciendo una alteracin de todos los fonemas excepto los nasales.
Fisura submucosa del paladar: Se trata de una malformacin congnita por la que
el paladar seo no se ha unido en la lnea media, pero si la mucosa que lo recubre.
Puede favorecer
la produccin
de
Otras causas: Paladar corto, vula bfida, velo largo, perforaciones, etc.
coger con los labios tapones de corcho de distintos tamaos y expulsarlos con
los movimientos de los labios.
mantener un botn sujeto con un hilo entre los dientes y labios, con la boca
cerrada sin presin. El educador puede tirar del hilo y el botn sale, realizando
un movimiento pasivo de los labios.
hacer morritos
inflar las mejillas y al apretarlas con las manos hacer explosiones con los
labios.
sonrer.
meter los labios dentro de los dientes (sin que se vean los dientes).
3.4. Disglosia 23
Disglosia mandibular
El tratamiento genrico consistir en:
ejercicios de succin.
ejercicios respiratorios.
ejercicios de masticacin:
o
articular /a/ e ir cerrando la boca sin cortar la salida del aire hasta
juntar los dientes.
Disglosia lingual
El tratamiento genrico consistir en:
ejercicios de succin.
ejercicios respiratorios.
ejercicios de masticacin.
con la boca abierta, llevar la lengua varias veces desde los incisivos
superiores a los inferiores.
Disglosia palatal
El tratamiento genrico consistir en:
soplo
succin
deglucin
bostezo
toser
hacer grgaras
ejercicios articulatorios.
3.4. Disglosia 25
bucofonatorios de ejemplo seran: morderse los dos labios a la vez, inflar los carrillos,
apretar los labios, etc.
El Grupo de Trabajo Logopedia Escolar de Asturias define una serie de ejercicios para
la regin orofacial [10] donde se pueden encontrar una serie de praxias para el
trabajo de la deglucin atpica o alteraciones en los procesos y/o fases de la deglucin,
y un programa para el control del babeo. Tambin ejercicios para favorecer la
movilidad, fuerza, precisin y sensibilidad de los rganos bucofonatorios. Algunos
ejemplos seran masajes labiales, linguales, mandibulares, valopalatinos, as como
actividades de soplo y de succin. En general, se caracterizan por incorporar en las
praxias algunos objetos como bolis para sujetar con los labios, alimentos y las propias
manos para desarrollar los masajes.
La Asociacin Fisurados Palatinos [11] presenta unos recursos muy prcticos para el
trabajo de la Terapia Miofuncional. Este material se presenta en formato de juegos
(dados, parchs, memory, etc) para que sea ms fcil captar el inters de los nios.
Algunos de los ejercicios que se pueden realizar en esos juegos se pueden ver de
manera resumida en la Figura 3-2.
En Figura 3-3 y Figura 3-4 se muestran una serie de praxias para la movilidad
orofacial, empleadas por la logopeda Elisa Pereira [36], en diferentes charlas prcticas
que ella realiza para la estimulacin del lenguaje oral.
3.4. Disglosia 27
3.5
Tal y como describe Belloch [12] la intervencin en trastornos del habla y la voz se ha
aprovechado del potencial de las aplicaciones que permiten representar y tratar stas
de diferentes formas como por ejemplo:
3.5. Estado del arte recursos tecnolgicos para la intervencin en trastornos del habla
y la voz
29
Los sonidos del habla: [16] Aplicacin web donde se presentan los diferentes
fonemas con su mecnica articulatoria a partir de sencillas animaciones con
sonido (ver Figura 3-5).
Phonetics: [17] Material desarrollado como animaciones flash, a los que podemos
acceder on-line, que permiten ver la mecnica articulatoria de cada uno de los
fonemas, con secuencias paso a paso de la animacin y posibilidad de visualizar la
produccin del fonema de forma aislada o bien de las palabras que lo contienen
(ver Figura 3-6).
Metavox: [18] Mediante este programa (ver Figura 3-7) podemos visualizar de forma
dinmica la posicin de los rganos fono-articulatorios con la presencia del aire
(emisiones fnicas), con lo que permite ejercitar las emisiones sonoras de los
fonemas. Mediante metavox podemos comparar y contrastar la mecnica
articulatoria de dos fonemas lo que puede resultar de gran inters para el
tratamiento de las dislalias y otros trastornos de articulacin.
Segn Belloch [12] los programas ms utilizados para corregir alteraciones del habla y
la voz, son:
3.5. Estado del arte recursos tecnolgicos para la intervencin en trastornos del habla
y la voz
31
Speech Viewer (ver Figura 3-8) de la empresa IBM. Aunque actualmente est
descatalogado al no haber desarrollado la empresa versiones que soporten
versiones posteriores de Windows 95, sigue siendo utilizado en el mbito de la
logopedia. Contiene un conjunto de ejercicios que pueden utilizarse con pacientes
que tengan trastornos de audicin, del lenguaje y del habla. Es especialmente til
para personas que deseen modificar su inflexin, pronunciacin y calidad vocal. El
programa permite obtener unas mediciones sobre los atributos del habla tales
como: la sonoridad, el tono, la intensidad, la precisin de la produccin de
fonemas e incluso el ritmo del habla conocer y ejercitar las caractersticas de la voz
(tono, intensidad, duracin y sonoridad) mediante una retroalimentacin visual y
auditiva de las producciones verbales. Asimismo, contiene ejercicios cuyo objeto es
la reeducacin fonolgica y la prosodia.
Los programas del proyecto Fressa [19], desarrollado para atender las necesidades
de sujetos con discapacidad motora, visual y/o trastornos de audicin. En
concreto nos interesan los programas:
prxicos. Ofrece 17 tipos de ejercicios sobre (ver Figura 3-9): ausenciapresencia de sonido, cualidades del sonido (intensidad, duracin y tono),
espectograma y sonograma.
Los programas del proyecto COMUNICA [20]. Este proyecto presenta los resultados
de la colaboracin del Grupo de Tecnologas de las Comunicaciones (GTC) del
Instituto en Investigacin en Ingeniera de Aragn (I3A) en la Universidad de
Zaragoza con los profesionales de ayudas tcnicas del Colegio Pblico de
Educacin Especial "Alborada" (C.P.E.E. Alborada) para poner al servicio de la
comunidad educativa la investigacin en Tecnologas del Habla. Los programas
desarrollados son los siguientes:
3.5. Estado del arte recursos tecnolgicos para la intervencin en trastornos del habla
y la voz
33
3.6
Conclusiones
Captulo 4
4 Trabajo de Investigacin
4.1
Introduccin
36 Trabajo de Investigacin
Grupo
1: Visemas y Expresiones faciales
N FAPs en el grupo
2
16
12
4: Cejas
5: Mejillas
6: Lengua
7: Rotacin de la cabeza
10
9: Nariz
10: Orejas
N Visema
Nombre Visema
Algunos fonemas
Ejemplo
nulo
no
no
PP
p, b, m
FF
f, v
Far, voice
TH
T, D
Think, that
DD
t, d
Tip, doll
Kk
k, g
Call, gas
CH
tS, dZ, S
SS
s, z
Sir, zeal
nn
n, l
Lot, not
RR
Red
10
Aa
A:
Car
11
Bed
12
ih
Tip
13
oh
Top
14
ou
book
Todos los FAP se expresan como desplazamientos de las posiciones definidas sobre
la cara neutral del personaje, esto es, cuando todos los FAPs estn a cero. Esta
cara neutral se define como:
Los labios estn en contacto, la lnea de los labios est horizontal y a la misma
altura de las comisuras de los labios.
Para consultar un listado completo con las definiciones de todos los FAPs
consultar los anexos I, II, III de MPEG-4 FBA An Overview [21].
38 Trabajo de Investigacin
40 Trabajo de Investigacin
El modelo CANDIDE fue creado en 1987 por Mikael Rydfalk [26], motivado por los
primeros intentos de Forchheimer [27] [28] de desarrollar compresin de imgenes a
travs de la animacin, lo que ms tarde se denominara basado en modelos, basado
en objetos o codificacin semntica, Bill Welsh [29]. Esta versin tena 75 vrtices y
100 tringulos y no fue muy utilizada.
La versin que empez a ser difundida y que convirti a CANDIDE en un estndar de
facto, es un modelo levemente modificado con 79 vrtices, 108 tringulos y 11 AU.
Este modelo fue creado por Mrten Strmberg al implementar el primer paquete
software CANDIDE, denominado CANDIDE-1.
Ms tarde, Bill Welsh [29] en British Telecom cre otra versin con 160 vrtices y 238
tringulos cubriendo la totalidad de la parte frontal de la cabeza (incluyendo pelo y
dientes) y los hombros. Esta versin se denomina CANDIDE-2, y est incluida en el
paquete de software CANDIDE pero slo incluye 6 AUs.
Gracias a estas versiones, CANDIDE consigui ser un modelo de caras muy utilizado
en laboratorios de investigacin de todo el mundo, debido a su simplicidad y a su
disponibilidad pblica, pero tena una serie de inconvenientes, fundamentalmente
debido a su simplicidad. Adems, la aparicin del estndar MPEG-4 FBA hizo
necesaria la actualizacin para hacer el modelo compatible con las FAPs y FPs
definidos en MPEG-4 FBA. De esta manera, en 2001 Jrgen Ahlberg [30] defini una
nueva versin, CANDIDE-3, derivada de la primera versin, aadiendo 20 vrtices a
sta y cumpliendo los requisitos de MPEG-4 FBA pero siendo algo ms sencillo.
CANDIDE se controla mediante Unidades de Accin (Action Units AUs) globales y
locales. Las globales se corresponden a rotaciones alrededor de los tres ejes, las
locales controlan la mmica de la cara de manera que se pueden obtener diferentes
expresiones. El concepto de Unidades de Accin fue descrito hace ms de 40 aos por
el investigador
sueco
Carl-Herman
Hjortsj
[24].
posteriormente por Paul Ekman and Wallace V. Friesen del Medical Center de la
Universidad de California, a lo que se denomina FACS, Facial Action Coding System
[25].
En CANDIDE-3 se habla de Action Unit (AU) para referirnos a algo que se hace en la
cara con una simple activacin de un msculo facial, y Action Unit Vector (AUV) es la
implementacin correspondiente (de uno o ms AUs). Por ejemplo, la AU 43 (ojos
Las Face Animation Parameter Units (FAPU) en CANDIDE-3 son las mismas
que en MPEG-4 FBA pero se calculan como se indica en la Tabla 4-3, siendo
rpupil el punto medio de los vrtices 69, 70, 73 y 74. lpupil es el punto medio
de los vrtices 68, 69, 71 y 72. pupil.y es la media de lpupil.y y rpupil.y
Tabla 4-3 FAPUs en CANDIDE-3
FAPU
Descripcin
Clculo Vrtices
AU
Unidad Angular
10-5 rad
MW
Ancho boca
31.x 64.x
MNS
Separacin boca-nariz
6.y 87.y
ENS
Separacin ojos-nariz
pupil.y 6.y
ES
Separacin ojos
rpupil.x lpupil.x
IRISD
Dimetro IRIS
73.y 74.y
FAPs 43 a 47 (lengua)
FAPs 65 a 68 (orejas)
42 Trabajo de Investigacin
4.3
Tecnologas Existentes
Una cmara de video RGB (sensor de deteccin de luz RGB): Capta imgenes
con color real y se utiliza para el reconocimiento facial y corporal de los
usuarios.
44 Trabajo de Investigacin
El Face Tracking SDK Kinect recibe las imgenes de color y de profundidad como
entrada. La calidad de seguimiento puede verse afectada por la calidad de imagen de
estas tramas de entrada (esto es, las tramas ms oscuras o ms borrosas permiten un
seguimiento peor que las tramas ms brillantes o ms definidas). Adems, las caras
ms grandes o ms cercanas permiten un seguimiento mejor que las caras ms
pequeas.
Resultados del seguimiento facial
Esta seccin proporciona detalles sobre la salida del motor de seguimiento de la cara.
Cada vez que se llama a StartTracking o ContinueTracking, se actualiza la siguiente
informacin:
46 Trabajo de Investigacin
Figura 4-8 ngulos que determinan postura de la cabeza para Face Tracking SDK
ngulo
Valor
-90 = Mirando hacia el suelo.
Cabeceo
(0=neutral)
Balanceo
(0=neutral)
Giro
(0=neutral)
Animation Units (AUs): Se recogen seis AUs que son un subconjunto de las que
se definen en el modelo Candide3 (ver seccin 4.2.2). Las AUs son variaciones
de la forma neutra que se pueden utilizar, por ejemplo, para dar forma a
modelos animados avatar de manera que ste acte como el usuario sobre el
que se hace seguimiento, como si estuviera ante un espejo. En la Tabla 4-5 se
pueden
ver
las
AUs
que
recoge
Face
Tracking
SDK,
as
como
la
48 Trabajo de Investigacin
Tabla 4-5 Animation Units en Face Tracking SDK y correspondencia con Candide3
AU Nombre y Valor
Ilustracin avatar
Interpretacin Valor
Cara neutral
(todas las AUS a 0)
0=neutral, cubriendo la
dentadura
AU 0 Labio superior elevado
dentadura
-1=labio hacia abajo lo mximo
posible
AU 1 Mandbula inferior
0=cerrado
bajada
1=totalmente abierto
0=neutral
1=totalmente estirado (sonrisa
AU 2 Estiramiento de labios
de joker)
AU 3 Cejas bajadas
AU 4 Depresor esquinas
0=neutral
labios
+1=muy triste
0=neutral
AU 5 Exterior cejas elevadas
(En Candide 3 es AU2)
Shape Units (SUs): Se recogen 11 SUs que son un subconjunto de las que se
definen en el modelo Candide3. Las SUs realizan una estimacin de la forma
particular de la cabeza del usuario: la posicin neutral de su boca, las cejas,
los ojos, etc. Cada SU especifica los vrtices a los que afecta y el
desplazamiento (x, y, z) por vrtice afectado. En la Tabla 4-6 se puede ver las
SUs que recoge Face Tracking SDK, as como la correspondencia con las SUs
de Candide3. Face Tracking SDK no recoge las siguientes SUs de Candide3: lo
que sobresalen las mejillas (SU 6), lo que sobresale la nariz (SU 7), posicin
vertical de la punta de la nariz (SU 9).
Tabla 4-6 Shape Units en Face Tracking SDK y correspondencia con Candide3
SU Nombre
Correspondencia en Candide3
Altura de la cabeza
10
Ancho de la boca
11
No existe
No existe
Modelo de la cara en 3D: Face Tracking SDK trata de encajar una mscara 3D
a la cara del usuario. Este modelo en 3D est basado en el de Candide3.
direccin
Puntos
Carcterstica (FPs) y una gran cantidad de informacin adicional. Para ofrecer dicha
funcionalidad el motor se basa en el ajuste de un modelo 3D de la imagen facial as
como en la estimacin del movimiento en 3D de la cabeza y de la expresin facial. Esta
tecnologa se ofrece mediante un SDK en C++, que est bien documentado.
50 Trabajo de Investigacin
Caractersticas Principales
Funcionamiento
completamente
automtico
aunque,
para
una
mayor
Recuperacin robusta ante las prdidas debido a oclusiones, cara fuera del
alcance, personas que van y vienen, etc.
Direccin de la mirada.
Libfreenect [41]: Paquete formado por un driver y una librera para Kinect.
Desarrollado por la comunidad de programadores de cdigo abierto ms
extensa del mundo orientada nicamente a Kinect, OpenKinect [42]. Codificado
en varios lenguajes de programacin y disponible para una gran diversidad de
dispositivos como ordenadores, dispositivos mviles, etc ...
CL NUI Platform [43]: Solucin de cdigo abierto para Kinect de muy fcil
instalacin y utilizacin. Disponible nicamente para Windows y con libreras
precompiladas. Code Laboratories [44] es la empresa especializada en software
de cdigo abierto encargada de desarrollar este driver y otros, como por
ejemplo, CL EYE Platform (cmara de PlayStation 3).
52 Trabajo de Investigacin
Libfreenect
CL NUI Platform
PrimeSenseNITE
Windows
Si
Si
Si
Linux
Si
No
Si
OS X
Si
No
Si
.Net
Si
Si
Si
Java
Si
No
Si
Instalacin
No Fcil
Fcil
No Fcil
Tipo Licencia
Apache 2.0
/ GPL2
GNU Lesser
GNU GPL
General Public
License
La Tabla 4-8 indica para cada entorno, que tipo de licencia, tipo de sistema
operativo y lenguajes de programacin son compatibles para cada entorno.
OpenCV
OpenNI
ImageJ
Windows
Si
Si
Si
Linux
Si
Si
Si
OS X
Si
Si
Si
.Net
C++/C# (EmguCV)
Si
No
Java
Si
Si
Si
Tipo Licencia
BSD
GNU GPL
GNU GPL
4.4
Anlisis de la Tecnologa
54 Trabajo de Investigacin
Tabla 4-9 Caracterizacin de la tecnologa
Caracterstica
Descripcin
El
cumplimiento
CANDIDE-3
resultados
en
del
estndar
garantiza
mejores
el
desarrollo
de
la
solucin.
La precisin de la tecnologa para
Calidad en la monitorizacin facial
solucin
tecnolgica
las
praxias
debe
monitorizar
para
la
de
reconocimiento
un
sistema
de
voz
de
integrado
sta
caracterstica
es
fundamental
juegos
integrado
facilita
los
parte
fundamental
de
la
de
monitorizacin
tecnologa
en
cuento
de desarrolladores.
Dispositivos que soportara la solucin
Dispositivos soportados
desarrollada.
Lanzamientos
previstos
versiones
la
de
de
tecnologa
nuevas
y
las
mejoras contempladas.
Caracterstica
CANDIDE-3
Si
Si
Cmara RGB
Sensor de profundidad en
Calidad
en
la
monitorizacin
milmetros.
Al tener datos en 3D se
obtienen hasta 121 Puntos
facial
Caracterstica,
Cmara RGB
superando
zonas
de
labios,
Los
AUs
(Action
permiten
la
monitorizacin
de
mejillas,
o animaciones propias de
Kinect
labios,
boca,
lengua
mandbula
den
respuesta a
la
monitorizacin apropiada.
Sistema
de
Dispone
cuatro
reconocimiento
de
micrfonos direccionales. Al
ser
voz
de
direccional
permite
56 Trabajo de Investigacin
Speech
soportan
los
(que
ltimos
implementar
un
motor de reconocimiento de
voz y acceder a los datos de
voz sin procesar.
Mejor calidad de sonido que
un micrfono nico y ms
cmodo de usar que un
micrfono en la cabeza.
Integracin con XNA Game
Entorno
Desarrollo
de Juegos Integrado
Studio
(entorno
de
Microsoft
Windows,
Xbox
desarrollo
No dispone.
Requerimientos
Hardware
paralelo
nico
SSOO soportados
Precio Hardware
Documentacin
Soporte
pblica
de
calidad
Excelente
Dispone
Foros y Comunidad
Windows 7 o Windows 8
Cmara RGB: 40
Detallada con ejemplos prcticos.
No
de
foros
comunidad
y
de
No
desarrolladores propio.
Dispositivos
soportados
Previsin de futuras
para
2014
versiones y avances
en la tecnologa
anunciados.
avances en reconocimiento
gestual y auditivo.
Comparando las caractersticas principales de ambas tecnologas, claramente la que
mejor se adapta a las necesidades tecnolgicas de este dominio es Face Tracking SDK
for Kinect for Windows, ya que aunque ambas siguen el estndar Candide-3 y la
tecnologa Visage SDK FaceTrack requiere de un hardware ms barato y permite su
implantacin en ms sistemas operativos, la primera de ellas gana claramente en los
siguientes aspectos que se consideran de vital importancia:
Xbox
360,
Windows
Phone).
Esta
es
una
caracterstica
58 Trabajo de Investigacin
4.5
Conclusiones
Los ejercicios
recomendados en todos los tratamientos y que mayor importancia tienen para los
logopedas son dos:
4.5. Conclusiones 59
artculos.
Todas
estas
competencias
han
sido
empleadas
Captulo 5
5 Lneas futuras de investigacin
5.1
Introduccin
tecnologa
podra
aportar
una
solucin
para
dicha
terapia
al
soportar
por utilizarlas. Esto supone claramente una oportunidad para facilitar los ejercicios de
terapia miofuncional para nios con disglosia ya que realizaran las praxias en un
entorno asistido por computador que es mucho ms atractivo para ellos, mejorando
por tanto el tratamiento de los trastornos del habla y del lenguaje.
De esta manera, el dominio del problema sera claramente buscar una solucin para
que el nio pueda utilizar en el entorno familiar, sin necesidad de la presencia de un
logopeda, aunque ste si podra supervisar a priori y a posteriori los ejercicios.
Por lo tanto, la tecnologa debe buscar la motivacin del nio en lugar de los aspectos
tcnicos para los profesionales, apoyndose en juegos y ejercicios dirigidos al pblico
infantil que se podran definir especficamente para esta solucin. As, que la correcta
ejecucin de los ejercicios articulatorios y praxias de movilidad orofacial tendran
como resultado la consecucin de los objetivos de los juegos.
5.3
Propuesta de tesis
Diseo de de posibles juegos que permitan a los nios interactuar con el sistema
de manera intuitiva, cmoda y motivadora, para poner en prctica ejercicios de la
terapia miofuncional.
5.4
Planificacin
5.4. Planificacin 63
El equipo investigador que lleva a cabo el proceso de investigacin. Este rol va a ser
llevado a cabo por el doctorando en el contexto de la UCLM.
El objeto bajo investigacin, es decir, el problema que debe ser resuelto. En este
caso, el objeto de investigacin es el desarrollo de un sistema para el tratamiento
miofuncional de la disglosia.
Resultados de
Aplicacin
Resultados de
Investigacin
grupo crtico
Resultados
Refinados
Propuestas
UCLM: Investigadores
Ao 2
Ao 3
Ao 4
5.5. Conclusiones 65
5.5
Conclusiones
6 Bibliografa
[1]
[2]
[3]
[4]
Lilian Bolte, Pamela Rojas. Trastornos del habla y del lenguaje infantil.
http://medicinafamiliar.uc.cl/html/articulos/123.html (lt. acceso: 01/09/2013)
[5]
[6]
[7]
[8]
[9]
67
68 Bibliografa
[17]
[18] Galiana Sanchs, J., Gonzlez Rus, G. y Sauca i Balart, A. (2004). Metavox 2.0.
En Tecnologa, Educacin y Diversidad: retos y realidades de la inclusin digital.
Reflexiones sobre la brecha digital y la educacin (Actas del Congreso
Internacional TECNONEET2004). (Comp.) (pp. 407-412). Murcia: Consejera de
Educacin y Cultura.
[19]
[20]
Proyecto COMUNICA.
http://www.vocaliza.es (lt. acceso: 01/09/2013)
[21]
[22]
[23]
[24]
C.H. Hjortsj. Mnniskans ansikte och det mimiska sprakt (Mans face and the
mimic language). Studentlitertur, Lund, Sweden, 1969.
[25]
[26]
[27]
[28]
Bibliografa 69
[29]
[30]
[31]
[32]
[33]
A.J. Capute, F.B. Palmer, B.K. Shapiro, R.C. Wachtel, S. Schmidt, A. Ross.
Clinical Linguistic and Auditory Milestone Scale: Prediction of Cognition in Infancy.
Developmental Medicine & Child Neurology, Volume 28, Issue 6, pages 762
771, December 1986
[34]
L. Levett, J. Muir. Which three year olds need speech therapy? Uses of the LevettMuir language screening test. Health Visitor. 1983;56:454456
[35]
[36]
[37]
[38]
[39]
[40]
[41]
Libfreenect
https://github.com/OpenKinect/libfreenect (lt. acceso: 01/09/2013)
[42]
OpenKinect
http://openkinect.org/wiki/Main_Page (lt. acceso: 01/09/2013)
[43]
CL NUI Platform
http://codelaboratories.com/nui (lt. acceso: 01/09/2013)
[44]
Code Laboratories
http://codelaboratories.com (lt. acceso: 01/09/2013)
[45]
PrimeSenseNITE
http://www.primesense.com/solutions/nite-middleware (lt. acceso: 01/09/2013)
70 Bibliografa
[46]
OpenCV
http://opencv.org (lt. acceso: 01/09/2013)
[47]
OpenNI
http://www.openni.org (lt. acceso: 01/09/2013)
[48]