Vous êtes sur la page 1sur 88

UNIVERSIDAD DE CASTILLA-LA MANCHA

ESCUELA SUPERIOR DE
INGENIERA INFORMTICA
Departamento de Sistemas Informticos

TRABAJO FIN DE MSTER


Aplicacin de estndares y tecnologas de monitorizacin
facial para el tratamiento de la Disglosia

Autor:

Jos Luis Patio Esteban

Tutor:

Dra. Elena Mara Navarro Martnez

Septiembre de 2013

Resumen
Este documento recoge el trabajo final del Mster en Tecnologas Informticas
Avanzadas de la Escuela Superior de Ingeniera Informtica de la Universidad de
Castilla-La Mancha durante el curso acadmico 2012/2013. El trabajo realizado
ofrece una descripcin de una futura tesis doctoral centrada en el mbito de la
rehabilitacin de la disglosia. Para ello se ha realizado una investigacin en torno a las
necesidades tecnolgicas para el tratamiento de la disglosia y las nuevas herramientas
existentes que puedan ser de aplicacin.
Se describe aqu la importancia de la comunicacin en el desarrollo infantil, as como
las limitaciones que originan los trastornos del habla y del lenguaje. Se recopilan los
diferentes tipos de trastornos en estos mbitos, destacando entre todas ellas la
Disglosia, una alteracin de los rganos fono-articulatorios) que causa trastorno del
habla y lenguaje. En este trabajo se presentan los diferentes tipologas as como
tratamientos a aplicar para cada una de ellas. Adems, se especifica que el
tratamiento ms recomendado por logopedas son los ejercicios articulatorios de
fonemas y palabras y las praxias para la movilidad orofacial (labios, mejillas, boca,
lengua y mandbula), que forman parte de la terapia miofuncional.
Se describe el estado del arte de los recursos tecnolgicos existentes para la
intervencin en trastornos del habla y la voz, centrndose todos ellos en los ejercicios
articulatorios. Sin embargo, ninguno de ellos aporta ninguna de las propuestas
estudiadas aporta una solucin en el mbito de la movilidad orofacial. Por eso se hace
patente una necesidad que ha de ser satisfecha por la tecnologa a fin de realizar la
monitorizacin facial orientada a las praxias de movilidad orofacial.
Se analizan dos estndares en el mbito de la monitorizacin facial (MPEG-4 FBA y
CANDIDE-3), as como las tecnologas identificadas que podran dar soporte a la
solucin buscada (Face Tracking SDK for Kinect for Windows y Visage SDK FaceTrack)
comparndolas para determinar cul de ellas se adapta mejor al dominio del
problema. La conclusin obtenida tras el anlisis realizado considerando tanto
caractersticas tcnicas como del dominio es que Face Tracking SDK for Kinect for
Windows es la alternativa que mejor se adapta para el desarrollo de una solucin
integral.

Summary
This document presents the final work to be submitted for the Master in Advanced
Computer Technologies of the College of Engineering at the University of Castilla-La
Mancha during the academic year 2012/2013. This research focuses on the
technological needs for the treatment of dysglossia as well as on the new technologies
tools that can be applied to meet this need.
We describe here the importance of the communication for childs development, and
the limitations that speech disorders and language can cause. In this document,
information about different types of disorders related to these areas is reported,
highlighting among them the dysglossia, an impairment of the phono-articulatory
organs that cause speech and language disorder. The different types of dysglossia as
well as well as the treatments to apply to each of them are described in this work.
Moreover, it is also described that speech therapists recommend as the most
appropriate treatment exercises is the articulation of phonemes and words and
orofacial praxis mobility (lips, cheeks, mouth, tongue and jaw).
We explain the state of the art about the technological resources available for
intervention in disorders of speech and voice. Despite the need of articulation
exercises, none of the analyzed proposals provides children and specialists with some
kind of solution or functionality in the area of orofacial mobility. Therefore, there is a
clear technological need to be satisfied: the monitoring-oriented facial mobility
orofacial praxis.
Two standards are analyzed in the field of facial monitoring (MPEG-4 FBA and
CANDIDE-3) and different technologies (Face Tracking SDK for Kinect for Windows
SDK FaceTrack Visage) that could support the desired solution are analyzed to
determine which one is best suited to the problem domain. To sum up, Face Tracking
SDK for Kinect for Windows is the alternative that provides higher support regarding
to the analyzed features related to the domain and the technology.

iii

Agradecimientos
Muchas gracias a mi tutora, Elena Navarro, por toda su ayuda y sobre todo por el
trabajo de orientacin que ha tenido que realizar en los inicios de este trabajo final de
mster, ya que ha sido fundamental para encontrar un rea de investigacin muy
novedosa y que me ha apasionado. El alto nivel de exigencia de Elena me ha permitido
desarrollar un trabajo de mayor calidad, por lo que el esfuerzo ha merecido la pena.
Gracias a mi esposa Ana, mi hija Ftima y mi hijo Alejandro por todo su apoyo y
comprensin. Os pido perdn por todo el tiempo que no os he dedicado.

ndice de Contenidos
Resumen ................................................................................................................... i
Summary ................................................................................................................ iii
Agradecimientos ........................................................................................................ v
ndice de Contenidos ............................................................................................... vii
ndice de Figuras ......................................................................................................xi
ndice de Tablas ..................................................................................................... xiii
1

Currculum Vitae ............................................................................................... 1


1.1

Titulacin acadmica .................................................................................. 1

1.2

Otras titulaciones acadmicas ..................................................................... 1

1.3

Participacin en Proyectos de Investigacin ................................................. 1

1.4

Becas disfrutadas ....................................................................................... 1

1.5

Participacin en Seminarios, Congresos, Cursos y en Eventos de Difusin

Cientfica .............................................................................................................. 1
1.6

Otros mritos .............................................................................................. 2

1.6.1

Experiencia laboral .............................................................................. 2

1.6.2

Cursos y Formacin Complementaria ................................................... 5

Asignaturas de mster realizadas ....................................................................... 7


2.1

Introduccin ............................................................................................... 7

2.2

Generacin de Documentos Cientficos en Informtica ................................. 7

2.3

Tecnologa Software Orientada a Objetos ..................................................... 8

2.4

Sistemas Inteligentes aplicados a Internet ................................................... 8

2.5

Calidad en Interfaces de Usuario ................................................................. 9

2.6

Programacin Internet con Lenguajes Declarativos Multiparadigma ............. 9

2.7

Redes Multimedia ..................................................................................... 10

Estado del Arte ................................................................................................ 11


3.1

Introduccin ............................................................................................. 11

3.2

Importancia de la comunicacin en el desarrollo infantil ............................ 12

3.3

Trastornos del habla y del lenguaje infantil ................................................ 12

3.3.1

Monitorizacin y Seguimiento ............................................................. 15


vii

viii ndice de Contenidos

3.3.2

Evaluacin del nio ............................................................................ 15

3.3.3

Tratamiento ........................................................................................ 17

3.3.4

La Terapia Miofuncional ...................................................................... 18

3.4

Disglosia ................................................................................................... 19

3.4.1

Clasificacin Etiolgica ....................................................................... 19

Disglosias Labiales ........................................................................................ 19


Disglosias Mandibulares ............................................................................... 20
Disglosias Dentales ....................................................................................... 20
Disglosias Linguales ...................................................................................... 20
Disglosias Palatales ....................................................................................... 21
3.4.2

Tratamiento de las Disglosias .............................................................. 21

Disglosia labial.............................................................................................. 21
Disglosia mandibular .................................................................................... 23
Disglosia lingual ........................................................................................... 23
Disglosia palatal............................................................................................ 24
3.4.3
3.5

Material y Recursos para la Disglosia .................................................. 24

Estado del arte recursos tecnolgicos para la intervencin en trastornos del

habla y la voz ....................................................................................................... 28


3.6
4

Conclusiones ............................................................................................. 34

Trabajo de Investigacin ................................................................................... 35


4.1

Introduccin .............................................................................................. 35

4.2

Estndares en el mbito de la monitorizacin facial .................................... 35

4.2.1

MPEG-4 Face and Body Animation (MPEG-4 FBA) ............................... 35

4.2.2

CANDIDE ........................................................................................... 39

4.3

Tecnologas Existentes ............................................................................... 42

4.3.1

Face Tracking SDK for Kinect for Windows .......................................... 42

Especificaciones Tcnicas .............................................................................. 44


Resultados del seguimiento facial .................................................................. 45
4.3.2

Visage SDK FaceTrack ........................................................................ 49

Caractersticas Principales ............................................................................ 50


Resultados del seguimiento facial .................................................................. 50

ndice de Contenidos ix
4.3.3
4.4

Anlisis de la Tecnologa ........................................................................... 53

4.5

Conclusiones ............................................................................................ 58

4.5.1
5

Otras tecnologas de desarrollo para Kinect......................................... 51

Aplicacin de los conocimientos adquiridos ......................................... 59

Lneas futuras de investigacin ........................................................................ 61


5.1

Introduccin ............................................................................................. 61

5.2

Dominio del problema ............................................................................... 61

5.3

Propuesta de tesis ..................................................................................... 62

5.4

Planificacin ............................................................................................. 62

5.5

Conclusiones ............................................................................................ 65

5.5.1

Adecuacin de la lnea de investigacin............................................... 65

5.5.2

Calidad del trabajo y de la lnea de investigacin ................................. 65

Bibliografa ...................................................................................................... 67

ndice de Figuras
Figura 3-1 Imagen interna de la boca ...................................................................... 18
Figura 3-2 Ejercicios y Juegos para la Terapia Miofuncional .................................... 26
Figura 3-3 Praxias para la Movilidad Orofacial (1 de 2) ............................................ 27
Figura 3-4 Praxias para la Movilidad Orofacial (2 de 2) ............................................ 28
Figura 3-5 Captura de Pantalla de Los Sonidos del Habla ..................................... 29
Figura 3-6 Captura de Pantalla de Phonetics ........................................................ 29
Figura 3-7 Captura de Pantalla de Metavox .......................................................... 30
Figura 3-8. Captura de Pantalla de Speech Viewer ................................................ 31
Figura 3-9 Captura de Pantalla de Globus. .............................................................. 32
Figura 3-10 Captura de Pantalla de Prelinga ......................................................... 33
Figura 3-11 Captura de Pantalla de Vivo. ................................................................ 33
Figura 3-12 Captura de Pantalla de Vocaliza. .......................................................... 33
Figura 3-13 Captura de Pantalla de ReFoCas. ......................................................... 34
Figura 4-1 Puntos Caracterstica (FPs) definidos en MPEG-4 FBA ............................ 38
Figura 4-2 Face Animation Parameter Units (FAPU) ................................................. 39
Figura 4-3 Versiones de CANDIDE .......................................................................... 40
Figura 4-4 Microsoft Kinect for Windows ................................................................. 42
Figura 4-5 Componentes de Sensor Microsoft Kinect ............................................... 43
Figura 4-6 Espacio Cmara .................................................................................... 45
Figura 4-7 Puntos 2D seguidos por Face Tracking SDK ........................................... 46
Figura 4-8 ngulos que determinan postura de la cabeza para Face Tracking SDK .. 46
Figura 4-9 Modelo 3D de Visage SDK FaceTrack ..................................................... 51
Figura 5-1: Actores en el proyecto de tesis ............................................................... 63
Figura 5-2: Distribucin temporal de las actividades ............................................... 64

xi

ndice de Tablas
Tabla 3-1 Actividades Funcionales y de Participacin en Sociedad en riesgo. ............ 12
Tabla 3-2 Hitos del desarrollo del lenguaje infantil y banderas rojas. ....................... 16
Tabla 4-1 Grupos de FAPs. ..................................................................................... 36
Tabla 4-2 Listado de Visemas. ................................................................................ 37
Tabla 4-3 FAPUs en CANDIDE-3 ............................................................................. 41
Tabla 4-4 Valores de ngulos de la postura de la cabeza para Face Tracking SDK .... 47
Tabla 4-5 Animation Units en Face Tracking SDK y correspondencia con Candide3 . 48
Tabla 4-6 Shape Units en Face Tracking SDK y correspondencia con Candide3 ....... 49
Tabla 4-7 Comparativa entre diferentes drivers para Kinect ..................................... 52
Tabla 4-8 Comparativa entre diferentes entornos de procesamiento de imgenes ..... 53
Tabla 4-9 Caracterizacin de la tecnologa ............................................................... 54
Tabla 4-10 Caractersticas de las tecnologas analizadas ......................................... 55

xiii

Captulo 1
1 Currculum Vitae
1.1

Titulacin acadmica

Licenciado en Informtica por la Universidad Politcnica de Madrid.


1.2

Otras titulaciones acadmicas

Executive Master Business Administration (MBA) por el Instituto de Empresa de


Madrid.
1.3

Participacin en Proyectos de Investigacin

Estudio, evaluacin y pruebas de herramientas de Gestin de Configuracin Software


y Seguimiento de Errores para Entornos de Desarrollo Orientados a la Investigacin
Nuclear1.
1.4

Becas disfrutadas

Technical Student en el CERN.


1.5

Participacin en Seminarios, Congresos, Cursos y en Eventos de Difusin


Cientfica

Hatziangeli, Eugenia ; Bartolom, R ; Bragg, A E ; Ninin, P ; Patio, J ; Sobczak, H. A


Common Software Configuration Management System for CERN SPS and LEP
Accelerators and Technical Services, International Conference on Accelerator and
Large Experimental Physics (ICALEPS99). Trieste 4-8 Octubre 1999.

http://proj-scam.web.cern.ch/proj-scam/
1

2 Currculum Vitae

1.6

Otros mritos

1.6.1 Experiencia laboral


Fechas

Septiembre 2012 hasta ahora

Profesin o cargo

Director Gerente

desempeado
Nombre de la

Parque Cientfico y Tecnolgico de Albacete

empresa
Tipo de empresa o

Investigacin, Desarrollo e Innovacin

sector

Fechas

Octubre 2004 hasta Agosto 2012

Profesin o cargo

Socio fundador

desempeado
Funciones y

Direccin de la empresa, responsable innovacin interna,

responsabilidades

definicin procesos de negocio y productos.

principales

reas de Negocio Software:

Administracin Electrnica (eGoverment): Trmites del


Ciudadano

(SIGEM),

Facturacin

Electrnica

en

la

Administracin (eFACIL), Gestin Documental, Registro,


Archivo.

Soluciones empresariales multisectoriales: ERP, CRM, Web,


Comercio Electrnico, Gestor Proyectos.

Soluciones empresariales sectoriales.

Desarrollo software a medida

Especialistas en desarrollo de apps para mviles

Marketing on line y social media. Community Manager

Integradores y mantenimiento de soluciones software


reas de I+D+i:

Sistemas de Rehabilitacin mediante interfaces de usuario


avanzados.

Nombre de la

Desarrollo Software Dirigido por Modelos (MDD)

Visualization and Modeling (DSL)


Capazita Innovacin y Tecnologa SL

empresa
Tipo de empresa o
sector

Empresa de nuevas tecnologas, Internet e innovacin

1.6. Otros mritos 3

Fechas

Febrero 2002 a Junio 2003

Profesin o cargo

Responsable Sistemas de Informacin de Soporte al Negocio,

desempeado

Proyecto PLC (transmisin de voz y datos a travs de la red


elctrica)

Funciones y

responsabilidades
principales

Miembro del Comit de Reflexin Estratgica y Comit de


Incidencias.

Definicin de los procesos de negocio propias de una Telco.

Planificacin

de

los

Sistemas

Informticos:

CRM,

Mediacin, Facturacin y Gestin de Almacn.

Gestin de proyectos de desarrollo software, y gestin y


motivacin equipo humano.

Nombre de la

Endesa Net Factory - Madrid

empresa
Tipo de empresa o

Empresa de nuevas tecnologas e internet

sector

Fechas

Abril 2001 a Enero 2002

Profesin o cargo

Jefe de Proyecto IT, Proyecto Portal Para Pymes.

desempeado

www.delanto.com

Funciones y

Responsable desarrollo y mantenimiento Portal de Internet.

responsabilidades

Definicin de los Sistemas de Informacin de Soporte al

principales

Negocio.

Anlisis de Procesos de Negocio (comercial, call center,


marketing, financiero).

Interlocutor del departamento de IT con proveedores y


marketing.

Gestin,

Coordinacin

Planificacin

responsable plazos de entrega.

Nombre de la

Desarrollo de negocio.
Endesa Net Factory - Madrid

empresa
Tipo de empresa o
sector

Empresa de nuevas tecnologas e internet

de

Proyectos,

4 Currculum Vitae

Fechas

Agosto 1999 a Marzo 2001

Profesin o cargo

Jefe de proyecto IT

desempeado
Funciones y

Responsable desarrollo Portal de Internet y WAP.

responsabilidades

Interlocutor del departamento de IT con proveedores y

principales

marketing.

Desarrollo de negocio

Planificacin de recursos humanos y tcnicos.

Gestin de proyectos de desarrollo software.

Diseo de procesos de negocio entre Marketing e IT.

Visin internacional al formar parte de multinacional.

Nombre de la

Excite Espaa - Barcelona

empresa
Tipo de empresa o

Empresa de nuevas tecnologas e internet

sector

Fechas

Agosto 1998 a Julio 1999

Profesin o cargo

Ingeniero Software

desempeado
Funciones y

Obtencin, Anlisis y Documentacin de Requisitos de

responsabilidades

Usuario, Diseo y Definicin de Especificaciones Software,

principales

Implementacin, Pruebas e Implantacin de los siguientes


proyectos:

Intranet de la Divisin.

Sistema Gestin de Redes.

Sistema de Gestin de Configuracin Software.

Sistema de Control de Cambios Software y Calidad


Software.

Sistema de Comunicacin de Peticiones Internas para la


mejora de la eficiencia.

Nombre de la

CERN (European Organization for Nuclear Research)

empresa

Ginebra

Tipo de empresa o

Centro de Investigacin de Fsica Nuclear

sector

1.6. Otros mritos 5

Fechas

Enero 1997 a Julio 1998

Profesin o cargo

Webmaster

desempeado
Funciones y

Desarrollo de aplicaciones Web (e-business, gestin de

responsabilidades

clientes y pedidos, control de stock), trabajando en las

principales

etapas: soporte tcnico al equipo comercial, obtencin y de


requisitos de usuario, diseo e implementacin.

Responsable

paso

explotacin

(coordinacin

equipo

humano).

Instalacin

administracin

de

servidores

web

(estadsticas, certificados de autenticidad, migraciones).

Nombre de la

Estrategia y planificacin tecnolgica para Internet.


Servicom - Madrid

empresa
Tipo de empresa o

Empresa de nuevas tecnologas e internet

sector

1.6.2 Cursos y Formacin Complementaria

Desarrollo de aplicaciones mviles multiplataforma con TITANIUM MOBILE. Mar


2012. Universidad de Castilla-La Mancha.

Fundamentos de J2EE en desarrollos con WebLogic Server. Nov 2001. BEA


Systems Iberia.

Business Objects Inicial. Marzo 2002. BUSINESS OBJECTS.

Captulo 2
2 Asignaturas de mster realizadas
2.1

Introduccin

De las asignaturas ofertadas por este mster, el alumno seleccion aquellas que, o
bien encuadraban mejor con su lnea de investigacin o, en su defecto, le resultaban
de inters personal. Las asignaturas son las siguientes:
2.2

Generacin de Documentos Cientficos en Informtica

Esta asignatura se realiz en el curso 2011/2012 y tiene un carcter metodolgico,


suministrando las bases necesarias para la iniciacin a la actividad investigadora.
Est relacionada, por tanto, con la mayora de las asignaturas del mster, no por sus
contenidos, pero si por la competencia que adquiere el alumno en la bsqueda de
informacin, capacidad crtica para revisar trabajos y saber cmo organizar la
escritura de trabajos y artculos.
La asignatura se divide en tres bloques. El primero de ellos, impartido por el Dr. D.
Jos A. Gmez nos muestra en lneas generales el mundo de la investigacin. En l se
nos muestra la metodologa asociada al campo de la investigacin y se nos muestra
como presentar pblicamente nuestros resultados. Adems, se instruye en la
bsqueda de informacin relevante a un tema de investigacin concreto, en la
evaluacin de la calidad de la investigacin usando indicadores bibliomtricos
estndar, en la redaccin de documentos tcnicos con la organizacin y partes
adecuadas, en la realizacin de una lectura crtica de trabajos cientficos, etc.
El segundo de los bloques, impartido por el Dr. D. Francisco Parreo est relacionado
con los contrastes estadsticos. Aqu se ensea a contrastar nuestros mtodos e
hiptesis con el objetivo de realizar publicaciones asociadas a los mismos. En este
bloque se presentan diferentes herramientas estadstica y, en especial, el lenguaje y
entorno estadstico R.
En el ltimo bloque, el Dr. D. Luis de la Ossa adiestra en el uso del lenguaje LaTeX y
sus herramientas derivadas, ampliamente usado en la generacin de documentos
7

8 Asignaturas de mster realizadas

cientficos de todo tipo. Adems, se presenta el entorno Beamer para la realizacin de


presentaciones.
Para la evaluacin final de esta asignatura el alumno realiz un documento cientfico y
su presentacin en LaTex con los siguientes temas: Inferencia Estadstica, Contrastes
de Hiptesis, Prueba de Wilcoxon para muestras pareadas con datos de ejemplo para
el peso de mujeres antes y despus de tener la menopausia y, finalmente, Anova de un
factor con datos de ejemplo para la tensin mxima en tres rangos de edad.
2.3

Tecnologa Software Orientada a Objetos

Esta asignatura se curs el curso 2011/2012 y est dividida en tres mdulos,


impartidos por los doctores Da. Elena Navarro Martnez, Da. Mara Dolores Lozano
Prez y D. Vctor Ruiz Penichet.
En el primero de los tres mdulos, impartido por la Dra. Da. Elena Navarro Martnez,
se define formalmente el concepto de modelo (en particular desde la perspectiva
orientada a objetos y de la arquitectura software), soportado sobre diversos
formalismos que permitan su compilacin. Tambin se estudia su aplicacin a
diferentes

campos

(tecnologas):

MDA,

MOF,

compilacin

de

modelos,

interoperabilidad semntica, plataformas de gestin de modelos, persistencia,


evolucin del SW, migracin automtica, metaprogramacin.
El segundo mdulo, el cual trata sobre Tendencias Actuales en el Desarrollo de
Interfaces de Usuario, es impartido por la Dra. Mara Dolores Lozano Prez. En l, tras
una introduccin al desarrollo de interfaces de usuario se nos presentan los ModelBased User Interface Development Environments (MB-UIDEs) as como un entorno
metodolgico basado en modelos para el desarrollo de GUIs. Adems, se realiza un
ejercicio prctico sobre el desarrollo de un prototipo de interfaz basado en modelos.
Finalmente, el mdulo concluye con la aplicacin de MDA al desarrollo de interfaces
para entornos ubicuos sensibles al contexto.
En el ltimo de los mdulos, el Dr. Vctor Ruiz Penichet nos presenta TOUCHE, un
modelo de proceso para el desarrollo de interfaces en sistemas colaborativos, centrado
en los usuarios y dirigido por tareas.
Como trabajo para la evaluacin de la asignatura se present la tecnologa Microsoft
para el desarrollo software dirigido por modelos: Visualization and Modeling SDK.
2.4

Sistemas Inteligentes aplicados a Internet

Esta asignatura la realiz el alumno en el curso 2003/2004. El objetivo fundamental


de dicha asignatura era presentar los fundamentos de distintos formalismos
relacionados con los sistemas inteligentes, que tienen una gran aplicacin para
resolver determinados problemas relacionados con Internet. Fue impartida por los
doctores D. Jos Antonio Gmez y D. Jos Miguel Puerta Callejn.
La asignatura se divida en los siguientes bloques o temas:
1. Redes Bayesianas: modelado e inferencia

2.5. Calidad en Interfaces de Usuario 9

2. Aprendizaje de redes bayesianas


3. Recuperacin de informacin
4. Clasificacin supervisada
5. Clasificacin no supervisada / clustering
Para la evaluacin de la asignatura se realiz un estudio sobre los siguientes
algoritmos y tcnicas de clustering de pginas web:

Clustering de Documentos Web (Zamir y Etzioni)

GROUPER: Un interfaz de clustering web (Zamir y Etzioni)

Clustering Sintctico de la Web (Broder, Glassman y Manasse)

Clustering de bsquedas web usando mtodos de rbol de sufijos (Branson y


Greenberg)

Caracterizacin de clases para la clasificacin automtica de pginas web


(Alonso).

2.5

Calidad en Interfaces de Usuario

Esta asignatura se realiz en el curso 2003/2004. Su objetivo principal era explicar


algunos de los conceptos ms importantes a la hora de desarrollar interfaces de
usuario de calidad, sobre todo teniendo en cuenta los nuevos paradigmas de
interaccin como entornos colaborativos, interfaces 3D, realidad virtual, agentes de
interaccin, etc. Fue impartida por los doctores D. Pascual Gonzlez, Mara Dolores
Lozano Prez, Jos Antonio Gallud Lzaro y Antonio Fernndez Caballero.
Como trabajo final de la asignatura el alumno present un estudio sobre un entorno
colaborativo para un sistema de gestin de configuracin software.
2.6

Programacin Internet con Lenguajes Declarativos Multiparadigma

Esta asignatura la realiz el alumno en el curso 2003/2004 siendo su objetivo ms


importante la introduccin de conceptos, principios y paradigmas de la programacin
declarativa: la programacin funcional y la programacin lgica. Fue impartida por los
doctores D. Pascual Julin Iranzo y D. Gins Moreno Valverde.
La asignatura trataba los siguientes aspectos:
1. Introduccin a los Lenguajes Declarativos Multiparadigma.
2. Sistemas ecuacionales.
3. Sistemas de reescritura de trminos.
4. Narrowing, estrategias y residuacin.
5. Curry: un ejemplo de lenguaje integrado.
6. Aplicaciones a la programacin en internet.
Como trabajo final de la asignatura el alumno desarroll un programa con el lenguaje
Curry, que le permiti conocer, mediante un ejemplo prctico, las caractersticas
propias de la programacin funcional (expresiones anidadas, evaluacin perezosa,
funciones de orden superior), y de la programacin lgica (presencia de variables

10 Asignaturas de mster realizadas

lgicas, estructuras de datos parciales, bsqueda incorporada), as como otras


caractersticas singulares que lo diferencia de los lenguajes puros.
2.7

Redes Multimedia

Esta asignatura la realiz el alumno en el curso 2003/2004 siendo su objetivo


fundamental dar a conocer los fundamentos de la calidad de servicio en redes que
deben soportar los requisitos de aplicaciones multimedia. Fue impartida por el doctor
D. Pedro Cuenca.
La asignatura se divida en los siguientes bloques o temas:
1. Introduccin:

Aplicaciones

Multimedia,

Calidad

de

Servicio

(QoS),

Requerimientos de las Aplicaciones, Clases de Servicios, Control de Congestin


y Trfico, Algoritmos de Encolado, Encaminamiento, etc.
2. Compresin de datos Multimedia
3. Requisitos Multimedia: Soporte de QoS
4. QoS en redes LAN
5. Qos en redes WLAN
6. Qos en redes WAN: Diffserv, Intserb, MPLS.
Para la superacin de la asignatura se realiz un estudio sobre los diferentes
Algoritmos de Control Adaptativo de Ancho de Banda.

Captulo 3
3 Estado del Arte
3.1

Introduccin

Este tercer captulo expone la importancia de la comunicacin en el desarrollo infantil,


detallando las limitaciones que originan los trastornos del habla y del lenguaje. Para
ello se hace una recopilacin de los diferentes tipos de trastornos en estos mbitos.
Tambin se recogen las recomendaciones para un seguimiento peridico del desarrollo
del lenguaje en nios,

as como el proceso de evaluacin a seguir en el caso de

detectar un nio con una posible alteracin del habla o del lenguaje.
Se explican tambin aspectos relacionados con las tcnicas empleadas en el
tratamiento de estos trastornos, donde en prcticamente todos los casos se
recomienda una terapia funcional, o estimulacin del lenguaje. Se ofrecen datos
obtenidos de estudios, sobre la duracin, encargado y caractersticas de las terapias.
Se explica la importancia cada vez mayor, segn terapeutas y logopedas, de la terapia
miofuncional para corregir trastornos del habla originados por trastornos orofaciales.
Uno de estos trastornos orofaciales es la disglosia. Se trata de una alteracin de los
rganos fono-articulatorios, que causa trastorno del habla y lenguaje. Se explica en
este captulo en qu consiste, las diferentes tipologas as como los diferentes
tratamientos a aplicar para cada una de ellas. Tambin se hace un recopilatorio de
material y recursos encontrados que se consideran de inters, para ver de una manera
ms prctica y visual en qu consiste el tratamiento para las disglosias.
Por ltimo, se muestra el estado del arte en cuanto a recursos tecnolgicos para la
intervencin en trastornos del habla y la voz, concluyendo con las necesidades
tecnolgicas no satisfechas en cuanto al tratamiento de estos trastornos y en concreto
de la disglosia.

11

12 Estado del Arte

3.2

Importancia de la comunicacin en el desarrollo infantil

Segn Feldman [1], el lenguaje es la expresin de la comunicacin humana a travs de


la cual las ideas, la informacin, emociones y creencias pueden ser compartidas.
Tpicamente, los nios con un desarrollo normal dominan los fundamentos del
lenguaje y el habla en la poca preescolar. Los conocimientos lingsticos y del habla
juegan un papel fundamental en el aprendizaje y en las relaciones sociales.
Para Schrter-Morasch et al. [2], la disminucin en la capacidad de hacerse entender,
una resistencia o potencia de la boca reducida, la estigmatizacin de una voz o de una
forma de hablar y la reduccin de la expresividad emocional,

disminuyen

enormemente la calidad de vida, limita las oportunidades de carrera profesional y


supone una disminucin de los contactos sociales. Cualquier problema de lenguaje o
habla es probable que tenga un efecto significativo en las habilidades sociales y
acadmicas del nio as como en su comportamiento, tal y como explica la American
Speech-Language-Hearing Association [3].
En la Tabla 3-1, extrada de Feldman [1], se pueden ver las actividades funcionales y
de participacin en la sociedad en riesgo en nios con trastornos del habla y del
lenguaje, segn datos de la Clasificacin Internacional del Funcionamiento, de la
Discapacidad y de la Salud de la Organizacin Mundial de la Salud.
Tabla 3-1 Actividades Funcionales y de Participacin en Sociedad en riesgo.
Dominio
Aprendizaje y Aplicacin de
Conocimiento

Ejemplos Especficos
Experiencias sensoriales intencionadas: escuchar.
Aprender a leer.
Aprender a escribir.
Llevar a cabo una nica tarea.

Tareas y Necesidades Generales

Llevar a cabo mltiples tareas.


Llevar a cabo rutinas diarias.
Gestin del estrs y otras necesidades psicolgicas.
Comunicacin-Recepcin.

Comunicacin

Comunicacin-Produccin.
Conversacin y uso de aparatos y tcnicas de
comunicacin.
Interacciones Interpersonales Bsicas (respeto,
tolerancia, actitud crtica, socializacin).

Interacciones y Relaciones
Interpersonales

Vida Comunitaria, Social y Cvica

3.3

Interacciones Interpersonales Complejas (establecer y


finalizar relaciones, regulacin del comportamiento
en las relaciones, interactuar de acuerdo a las reglas
sociales).
Tiempo libre y ocio.
Religin y espiritualidad.

Trastornos del habla y del lenguaje infantil

Es importante distinguir dos conceptos: lenguaje y habla, ya que como veremos a


continuacin no son lo mismo. Tal y como explica Feldman [1], el lenguaje es el uso de
la sistemtica, y seales socialmente acordadas (palabras y oraciones) para transmitir

3.3. Trastornos del habla y del lenguaje infantil 13

un significado dentro de un grupo o comunidad. El lenguaje receptivo se refiere a la


capacidad de comprender y el lenguaje expresivo para producir esta comunicacin
simblica. El habla es una manifestacin del lenguaje que utiliza sonidos vocales
descifrables como medio de intercambio. El habla es creada por una serie de
movimientos complejos y coordinados de los sistemas respiratorio, larngeo, farngeo y
oral. Atendiendo a las definiciones que se hacen en la American Speech-LanguageHearing Association [3]:

El lenguaje se compone de reglas compartidas socialmente que incluyen lo


siguiente:

Que significan las palabras.

Como crear nuevas palabras.

Como poner las palabras juntas.

Que combinacin de palabras es mejor en que situaciones.

El habla es el mecanismo verbal de comunicarse y se compone de:

Articulacin: Como se hacen los sonidos del habla.

Voz: Uso de las cuerdas vocales y la respiracin para producir sonidos.

Fluidez: El ritmo del habla.

Una vez hemos distinguido ambos conceptos podemos decir que cuando una persona
tiene problemas para entender a otras (lenguaje receptivo) o para compartir
pensamientos, ideas o sentimientos (lenguaje expresivo), entonces tiene trastorno del
lenguaje. Sin embargo, si una persona no es capaz de producir sonidos correctamente
o con fluidez, o tiene problemas en su voz, entonces tiene un trastorno del habla.
Tal y como explica Bolte y Rojas [4], los trastornos del habla y del lenguaje son una
patologa relativamente frecuente en la infancia, y que preocupa a padres y
profesionales de la salud. Tienen una prevalencia cercana al 5-8% en preescolares y a
un 4% en escolares. En trminos generales, estos trastornos suelen presentar un
curso crnico; as sin un diagnstico y tratamiento adecuados, la patologa persiste en
el 40% 60% de los casos.
Por lo tanto, al enfrentarse a un nio que se comunica mal, el primer paso es
determinar si ste presenta un trastorno del habla o un trastorno del lenguaje, o bien
su problema es secundario a alteraciones a nivel fono articulatorio o psicolingstico.
A continuacin se muestra la clasificacin de los diferentes trastornos segn Bolte y
Rojas[4]:

Trastornos del habla:

Trastorno de la articulacin:
o

Dislalia: Alteracin sistemtica en la pronunciacin de un determinado


fonema, producto de la existencia persistente de formas de articulacin
inmadura. Se puede observar omisin, sustitucin, inversin o distorsin
del fonema. Los fonemas ms afectados en el idioma castellano son: S, R, L,
D.

14 Estado del Arte

Trastorno del ritmo y fluidez:


o

Espasmofemia:

Alteracin

de

la

fluidez

normal

de

las

palabras,

producindose el bloqueo o repeticin de una o ms slabas. Se acompaa


de movimientos corporales que denotan tensin.
o

Disfluencia o Tartamudez fisiolgica o evolutiva: Diagnstico diferencial de


la espasmofemia. Se refiere a un proceso fisiolgico en el cual el nio
presenta repeticiones de la palabra completa y sin espasmos. Ocurre
alrededor de los 3 a 4 aos y es auto-limitado.

Farfulleo o habla taquillica: Consiste en un habla precipitada, producto de


la cual, no se entiende lo que el nio dice. Se observa en pacientes
ansiosos, y en algunos casos, en nios con retardo mental.

Trastornos del lenguaje:


o

Retraso simple del lenguaje: Lenguaje cuya adquisicin se presenta


cronolgicamente retrasada, pero que evoluciona adecuadamente (cumple
los hitos en forma adecuada) y que no compromete la comprensin. Se
postula que su origen sera un discreto retraso a nivel madurativo.

Disfasia o trastorno especfico del lenguaje: Lenguaje cuya adquisicin se


presenta cronolgicamente retrasada, y que adems evoluciona sin
progresos.

Los

afectados

muestran

alteraciones

persistentes

en

la

comprensin, procesamiento y uso del lenguaje y, por tanto, serias


dificultades para comunicarse.
o

Afasia: Alteracin adquirida del lenguaje, en la cual se observa un


desarrollo previo normal, y posteriormente alteraciones en la comprensin
y/o expresin. Puede ser secundaria a una lesin cerebral traumtica,
tumoral, mal-formativa o infecciosa.

Alteracin de rganos fono-articulatorios:

Sordera o Hipoacusia: Prdida de audicin.

Disglosia: Alteracin de los rganos fono-articulatorios, que causa trastorno del


habla y lenguaje. Ejemplos: labio leporino, fisura palatina.

Disartria: Dificultad en la pronunciacin de las palabras de etiologa


neurolgica del sistema esqueleto-muscular.

Trastornos psicolingsticos:

Espectro autista: Suelen iniciarse en menores de tres aos de vida, siendo 3-4
veces ms frecuente en pacientes de sexo masculino. Se caracterizan por una
alteracin en la interaccin social del individuo, con comportamientos
compulsivos y rituales, y actividad motora estereotipada y repetitiva. Estos
pacientes presentan trastornos del lenguaje, con un desarrollo del mismo
alterado y atrasado, y presencia de ecolalia, mal uso de pronombres, voz
montona o atnica.

3.3. Trastornos del habla y del lenguaje infantil 15

Deficiencia mental: Retraso global en la maduracin neurolgica y sensorial del


nio. En relacin al lenguaje se identifica un retraso en su adquisicin y un
uso inadecuado de ste (alteracin en la organizacin, mal uso de artculos,
preposiciones, adjetivos, conjugacin verbal). Se observa pobreza en el
contenido del lenguaje, y comprensin limitada. Se puede asociar a dislalia y
taquilalia.

Mutismo selectivo: Condicin caracterizada por un lenguaje y habla normales,


pero que en determinadas situaciones (ej. en el colegio), o frente a ciertas
personas (ej. con los hombres), se bloquea.

3.3.1 Monitorizacin y Seguimiento


American Academy of Pediatrics [13], Centers for Disease Control and Prevention [14]
y American Speech Language Hearing Association [3] recomiendan el seguimiento
peridico del desarrollo del lenguaje en todos los nios. Destaca la existencia de
distintos instrumentos para evaluar el retraso del lenguaje en la poblacin infantil, los
cuales difieren en cuanto a su tiempo de aplicacin y a sus valores de sensibilidad y
especificidad. Desafortunadamente, el test ptimo a utilizar an no est establecido.
Segn Bolte y Rojas [4], estudios realizados en nios menores de 2 aos, han
mostrado que los tests Early Language Milestone Scale [31], Language Development
Survey [32], y Clinical Linguistic and Auditory Milestone Scale [33] tenan una
sensibilidad y especificidad > 80%. En nios de 2 a 3 aos, los tests Levett-Muir
Language Screening Test [34] y Screening Kit of Language Development [35] tambin
tenan una sensibilidad y especificidad > 80%. En nios de 3 a 5 aos el test
Screening Kit of Language Development tiene una sensibilidad y especificidad similar.
3.3.2 Evaluacin del nio
Siguiendo las instrucciones indicadas por Bolte y Rojas [4], ante un nio del cual se
sospeche alguna alteracin del habla o del lenguaje se sugiere el siguiente proceso:
1. Determinar si existe patologa: Conocer lo hitos del lenguaje y confirmar que la
condicin del nio es efectivamente patolgica y no un habla o lenguaje propio de
su edad. Se sugiere dar especial nfasis en identificar signos de alarma (las
llamadas "banderas rojas"). La Tabla 3-2 resume los principales hitos del
desarrollo del lenguaje infantil y las banderas rojas, recogidas en dicho estudio,
correspondientes a cada edad, definidas por Feldman [1].

16 Estado del Arte


Tabla 3-2 Hitos del desarrollo del lenguaje infantil y banderas rojas.
Edad

Hito del desarrollo

Banderas Rojas

Recin
nacido

Demuestra inters por las voces

No responde a sonidos

Llora

Sin inters por el contacto social

2-4 meses

Vocaliza

Falta de inters por comunicarse

6 meses

Responde a su nombre

No vocaliza ni balbucea

Balbucea
9 meses

12 meses

12-24 meses

Seala lo que desea

Prdida de la habilidad de balbucear

Dice ma-ma o pa-pa

Falta de respuesta a sonidos

Gesto de adis con la mano

Pobre localizacin de sonidos

Obedece ordenes simples

No practica palabras

Dice algunas palabras mam,


agua

No dice ma-ma ni pa-pa

Entiende frases

15 a 18 meses:

Dice frases de 2 palabras

- no dice palabras

Pierde habilidades ya desarrolladas

- impresiona que entiende poco


24 meses:
- no dice frases de 2 palabras
- maneja menos de 50 palabras
- Inteligibilidad < 50%
24-36 meses

36-48 meses

Obedece ordenes de 2 pasos ven y


come

36 meses:

Inteligibilidad 50%

- entonacin plana

Dice frases de 3 palabras

- repite sistemticamente

La mayora de las personas le


entiende

48 meses:

Inteligibilidad 75%

- Inteligibilidad < 75%

- falta de habilidad para participar en


conversaciones
- tartamudea

48-60 meses

Inteligibilidad 100%
Cuenta historias

6-7 aos

Pronuncia todos los sonidos


correctamente, incluso
combinaciones de consonantes

Produccin de sonido inmadura o


inapropiada

2. Completar su anamnesis (conjunto de los datos clnicos relevantes y otros del


historial de un paciente):

Confirmar los hitos del desarrollo de su lenguaje.

Evaluar la anamnesis de su desarrollo psicomotor global.

Buscar de forma guiada antecedentes mrbidos personales y familiares.

Interrogar sobre su interaccin con el medio.

Evaluar antecedentes psicosociales y, eventualmente, informes escolares.

3. Realizar examen fsico completo con nfasis en:

Antropometra.

Presencia de dismorfias.

3.3. Trastornos del habla y del lenguaje infantil 17

Evaluar

rganos

fonatorios,

especialmente

en

relacin

malformaciones

(desarrollo incompleto o imperfecto del conducto auditivo, paladar fisurado, etc.).

Alteraciones

en

examen

fsico

segmentario

(ejemplo:

macroglosia,

severa

hipertrofia de amgdalas, compromiso neurolgico, etc.).

Confirmacin clnica de la no existencia de dao visual y auditivo

Evaluar el habla y el lenguaje a travs de preguntas directas al nio, a sus padres,


y observando el dilogo espontneo en la consulta.

4. Exmenes de laboratorio pertinentes: solicitar, segn se vayan produciendo


hallazgos

clnicos,

audiometra,

potenciales

evocados

auditivos2,

impedanciometra3, neuroimgenes4, etc.


3.3.3 Tratamiento
Una vez realizada una completa evaluacin del nio y dependiendo del caso es posible
utilizar diferentes tratamientos, como pueden ser: ciruga, electroterapia, masaje
digital, prtesis y/o ortodoncias. Utilizar alguna de stas tcnicas no siempre es
necesario, sin embargo, en prcticamente la totalidad de los casos se recomienda una
terapia funcional, o estimulacin del lenguaje.
En este sentido, Bolte y Rojas[4] indican que una revisin sistemtica de 25 estudios
aleatorios controlados y otra de U.S. Preventive Task Forces, evaluaron la efectividad
de distintas intervenciones de estimulacin de lenguaje en nios con retraso del
lenguaje primario. Estas revisiones demostraron que, pese a que las intervenciones
son efectivas, stas varan segn:
1. Duracin de la terapia: Las intervenciones prolongadas (mayores de 8 semanas)
son ms efectivas aquellas que duran menos de 8 semanas.
2. Encargado de la intervencin: No exista diferencias estadsticamente significativas
entre las terapias realizadas por padres entrenados frente a profesionales
especialistas.
3. Caractersticas de la terapia: Demostraron que no exista diferencias entre las
intervenciones grupales frente las individuales. Adems, mostraron que la
presencia de pares, con lenguaje normal, tiene efecto positivo en el progreso del
lenguaje de estos nios.
Como indica Castells [15] cada vez hay ms terapeutas del lenguaje interesados en el
tema de los hbitos orales y su relacin con los problemas del habla; como
consecuencia en Espaa se est dando ms importancia al tema de la terapia
miofuncional y su relacin con los logopedas o terapeutas del lenguaje. Por su

Exploracin neurofisiolgica que evala la funcin del sistema sensorial acstico.

Examen otorrinolaringolgico cuyo objetivo es la medida de las impedancias o resistencias del

fenmeno auditivo, especficamente del odo medio.


4

Imgenes en vivo del sistema nervioso central en general y del cerebro en particular.

18 Estado del Arte

formacin y experiencia, los logopedas estn capacitados para entender la anatoma y


fisiologa de la zona oral y para cambiar los hbitos de la musculatura oral. La Terapia
Miofuncional es importante pues, por el creciente nmero de patologas que abarca y
por su aplicacin a toda una serie de trastornos orofaciales.
Para toda esta serie de problemas ocasionados por un desequilibrio de la musculatura
de la zona orofacial, es necesario conseguir entrenar las funciones motoras y
neurovegetativas (la respiracin nasal, la masticacin, la deglucin y la voz), los
rganos fono-articulatorios (labios, lengua, maseteros (ver Figura 3-1), buccinadores
(ver Figura 3-1), mentoniano, paladar duro, velo del paladar, huesos maxilares o
arcadas dentarias) y el entrenamiento en la articulacin del habla. Es importante
tener presente que la rehabilitacin logopdica sera poco provechosa sin la
colaboracin de otros profesionales (ORL, neurlogo, psiclogo, pedagogo, etc) y por
supuesto es absolutamente necesaria la implicacin familiar as como fomentar la
motivacin en el nio.

Figura 3-1 Imagen interna de la boca

3.3.4 La Terapia Miofuncional


Hablamos de terapia miofuncional para referirnos a la terapia que se aplica a una
serie de trastornos orofaciales, segn explica Garca [6]. Se aplica bsicamente sobre
dos grupos de trastornos:

Esqueltico-estructurales: de origen congnito y/o adquirido.

Funcionales: originados en la fase neonatal o desarrollados durante el crecimiento.

La terapia miofuncional se aplica en una gama muy diversa de patologas, como la


deglucin atpica, las fisuras labiales o palatinas, las malformaciones crneo-faciales,

3.4. Disglosia 19

los traumatismos orofaciales, las disfagias, algunas dislalias, disartrias y disglosias.


La intervencin va encaminada a mejorar:

El funcionamiento de los rganos que intervienen en la fonacin y en la


articulacin.

Articulacin del habla y prosodia del lenguaje.

Voz.

Lenguaje.

Mejorar

las

funciones

neurovegetativas

(respiracin,

succin,

deglucin

masticacin).
3.4

Disglosia

Utilizando la definicin de Garca [5], hablamos de disglosia para referirnos a una


alteracin de la articulacin de carcter y causa orgnica, de origen no neurolgico,
provocada por lesiones fsicas y malformaciones de los rganos perifricos del habla:
labios, mandbulas, dientes, lengua y paladar. La disglosia es una alteracin motora
del habla, como la disartria, ambas afectan a la motricidad de la zona oral (tono,
control, fuerza, presin, coordinacin de los movimientos de la lengua, labios,
maxilares), lo que incidir en otras capacidades, como la respiracin, la fonacin, la
alimentacin, el control de la saliva o la articulacin.
3.4.1 Clasificacin Etiolgica
Atendiendo a la clasificacin realizada por Garcia [5] podemos distinguir:
Disglosias Labiales
Trastorno en la articulacin de los fonemas causado por dificultades en la movilidad
de los labios y/o por falta de fuerza en ellos. Entre las causas ms frecuentes
podemos mencionar:

Labio leporino: Es una malformacin congnita de diversos grados que abarca


desde la simple depresin del labio superior hasta su total hendidura,
generalmente asociado a fisura palatina y hendidura alveolar.

Como consecuencia de esta malformacin, el habla del sujeto queda afectada en la


articulacin de los fonemas voclicos posteriores /u/ y /o/ y los consonnticos
bilabiales /p/, /b/ y /m/.

Frenillo labial superior hipertrfico: Su presencia dificulta la normal movilidad del


labio superior, produciendo un diastema (espacio entre dos dientes contiguos)
generalmente entre los incisivos centrales superiores. Como consecuencia aparece
una dificultad en la articulacin de los siguientes fonemas: /p/, /b/, /m/ y /u/.

Fisura del labio inferior: Suele ir acompaada de labio leporino superior. Puede
producirse por un traumatismo. Las dificultades articulatorias son diversas,
generalmente distorsiones, dependiendo de la gravedad de la lesin y de las
posibilidades de movilizacin de los labios.

20 Estado del Arte

Parlisis facial: Una variedad amplia de patologas puede producir parlisis facial
en nios y jvenes. Puede afectar a un lado o a ambos. En el segundo caso la
articulacin fonemtica est considerablemente afectada en los siguientes
fonemas: /f/ en lugar de /p/, /n/ en lugar de /m/ y /o/ y /u/.

Macrostoma: Amplitud excesiva de la hendidura bucal.

Heridas labiales.

Neuralgia del Trigmino: Inflamacin muy dolorosa del nervio trigmino que causa
dolor facial severo y espasmo de los msculos faciales.

Disglosias Mandibulares
Se trata de un trastorno en la articulacin de los fonemas debido a una alteracin en
la forma o movimiento de uno o varios maxilares. Las causas ms probables son:

Reseccin (corte o amputacin) del maxilar superior/inferior: Debido a accidentes,


tumores, etc.

Atresia mandibular: Se debe a una mala oclusin de los maxilares. Puede


producirse por la detencin en el desarrollo del maxilar inferior de origen
congnito, como en el raquitismo, o adquirido, como el abuso del chupete.

Disostosis mxilofacial: Malformacin mandibular por una osificacin defectuosa


asociada a otras anomalas.

Prognatismo: Es una protrusin de la mandbula debido al desalineamiento de los


dientes por malformaciones de los huesos de la cara, debido a muy diversas
causas

(condiciones

hereditarias,

gigantismo,

acromegalia,

amgdalas

hipertrficas, respiracin bucal, etc). Las personas con prognatismo tienen


dificultades en la emisin de los fonemas fricativos o africados. Se producen
sonidos como sibilantes o deslizados, provocados por el roce del aire contra los
dientes.
Disglosias Dentales
Trastornos de la articulacin como consecuencia de una alteracin en la forma o
posicin de las piezas dentarias. Las causas son diversas: herencia, desequilibrios
hormonales, alimentacin, ortodoncias, prtesis, etc.
Disglosias Linguales
Alteracin de la articulacin como consecuencia de un trastorno orgnico de la
lengua. La motilidad lingual puede verse dificultada por:

Anquiloglosia o frenillo corto. El fonema ms afectado es la /f/ y la /r/ [7].

Glosectoma, extirpacin de un trozo de la lengua.

Macroglosia, lengua muy grande.

Malformaciones de la lengua por una detencin en el desarrollo embrionario.

Parlisis uni-bilateral del hipogloso.

3.4. Disglosia 21

Disglosias Palatales
Alteracin en la articulacin de los fonemas debido a malformaciones orgnicas del
paladar seo y del velo del paladar. Como causa probable se puede citar la fisura
palatina. Se trata de una malformacin congnita en la que las dos mitades del
paladar no se unen en la lnea media. La fisura puede afectar al velo del paladar, al
paladar seo y a la apfisis alveolar del maxilar superior. Los trastornos articulatorios
de las hendiduras palatinas y su origen son:

Golpe de glotis: La articulacin de los fonemas /p/, /t/, /k/, /b/, /d/ y /g/ es
sustituida por un pequeo ruido, con o sin vibracin.

Ronquido farngeo: A veces se acompaa de vibraciones larngeas y reemplaza a las


consonantes /s/, /x/, /q/ y en ocasiones /f/ y /r/.

Soplo nasal: Es el escape de aire por la nariz durante la emisin de las palabras,
produciendo una alteracin de todos los fonemas excepto los nasales.

Rinofona: La mayora de las divisiones palatinas presentan una rinofona mixta


(voz nasal) debida a una obstruccin nasal y a la insuficiencia del velo palatino.

Fisura submucosa del paladar: Se trata de una malformacin congnita por la que
el paladar seo no se ha unido en la lnea media, pero si la mucosa que lo recubre.

Paladar ojival: Es un paladar alto, en forma de ojiva, con paredes laterales en


forma de techo a dos aguas. Algunas de sus causas son el uso prolongado del
chupete, la respiracin bucal, y a veces una posicin anormal de la lengua que
presiona permanentemente el paladar.

Puede favorecer

la produccin

de

distorsiones en la articulacin de /t/, /d/ y /l/.

Esfnter nasofarngeo: En la cavidad bucal se observa el paladar dividido por una


hendidura ms o menos larga que se extiende desde la vula bfida hacia delante.

Otras causas: Paladar corto, vula bfida, velo largo, perforaciones, etc.

3.4.2 Tratamiento de las Disglosias


El Grupo de Trabajo Logopedia Escolar de Asturias [9] define una programacin muy
completa para la intervencin en disglosias orientada a la funcin que se quiere tratar,
ya sea la reeducacin respiratoria, muscular orofacial (labios, lengua, buccinadores,
mandbula, velo-palatina, facial), habla, succin, masticacin, deglucin y eliminacin
de parafunciones (babeo, colocacin adecuada de lengua y labios en reposo, etc).
Garca [6] indica el tratamiento logopdico ms apropiado para cada tipo de disglosia.
Se especifica a continuacin el tratamiento conforme a ste ltimo criterio, aunque las
actividades a realizar son exactamente las mismas independientemente del criterio de
clasificacin en el que nos fijemos.
Disglosia labial
El tratamiento genrico consistir en:

masajes con electroterapia.

movilizacin pasiva con ayuda de las manos.

22 Estado del Arte

Succin. Algunos ejercicios tpicos son:

succionar el agua de las jeringuillas.

mantener succionado papelillos de diferentes tamaos.

succionar y chupar agua con pajitas de diferentes tamaos.

soplo fonatorio, bsicamente, el control del soplo tanto en la fuerza como en la


direccin. Se ejercitan especialmente los soplos:

Fuerte y corto para P T CH K

Fuerte y largo para F V J RR

Suave y corto para N LL R

Suave y largo para B D Y G S y las nasales M y N

praxias labiales. Algunos ejercicios tpicos son:

agrupar los labios lo ms rpidamente posible.

abrir mucho la boca y cerrarla despacio.

abrir la boca y cerrarla hasta sujetar un lpiz.

estirar los labios hacia la derecha e izquierda y hacia arriba.

fruncir los labios hacia la derecha e izquierda y hacia arriba.

morder los labios alternativamente por su cara interna.

morder los labios alternativamente por su cara externa.

silbar o imitar el silbido.

morder los labios por la cara externa.

hinchar los labios con movimientos rotatorios.

abrir la boca estirando el labio superior sobre la arcada dentaria.

sostener un palo slo con los labios.

coger con los labios tapones de corcho de distintos tamaos y expulsarlos con
los movimientos de los labios.

mantener y sujetar un lpiz con el labio superior.

mantener un botn sujeto con un hilo entre los dientes y labios, con la boca
cerrada sin presin. El educador puede tirar del hilo y el botn sale, realizando
un movimiento pasivo de los labios.

imitar la posicin labial de las vocales.

hacer morritos

inflar las mejillas y al apretarlas con las manos hacer explosiones con los
labios.

inflar las mejillas y apretarlas pero esta vez sujetando el aire.

sonrer.

sonrer lateralizando, estirando una comisura ms que la otra.

meter los labios dentro de los dientes (sin que se vean los dientes).

3.4. Disglosia 23

Disglosia mandibular
El tratamiento genrico consistir en:

ejercicios de succin.

ejercicios respiratorios.

corregir la posible protrusin lingual.

afianzar la deglucin correcta.

ejercicios bucofaciales. Algunos ejemplos son:

abrir y cerrar la boca lo ms posible.

mover la mandbula con la ayuda de la mano.

mover la mandbula sin la ayuda de la mano.

abrir la boca lo ms posible y tensar los msculos del labio superior.

morderse el labio superior y el inferior.

tragar saliva varias veces lo ms rpido posible.

mover la cabeza y el cuello hacia arriba y abajo, izquierda y derecha.

apretar los dientes y mover los labios.

hinchar las mejillas con movimientos rotarios.

aspirar las dos mejillas.

abrir y cerrar la boca suavemente.

ejercicios de masticacin:
o

ejercicios de mascar, chicles, gomas,

castaear los dientes.

ejercicios articulatorios (algunos ejemplos):


o

articular rpidamente da, la, da, la

pronunciar an, an, an

articular /a/ e ir cerrando la boca sin cortar la salida del aire hasta
juntar los dientes.

emisin de la /S/ y pausa varias veces.

Articular la, la, la + umhhhh (con boca cerrada).

Emitir tatata castaeando ligeramente los dientes.

Disglosia lingual
El tratamiento genrico consistir en:

ejercicios de succin.

ejercicios respiratorios.

ejercicios de masticacin.

praxias linguales. Algunos ejercicios son:


o

sacar y meter la lengua varias veces a diferentes ritmos.

sacar la lengua lo mnimo posible, manteniendo los labios relajados sin


abrir la boca de forma que solo aparezca la punta de la lengua entre los
labios y aplicando diferentes ritmos.

24 Estado del Arte

llevar la punta de la lengua de una comisura a otra, aplicando


diferentes ritmos.

subir y bajar la lengua, apoyando la punta en el centro del labio


superior e inferior.

pasar la punta de la lengua por el labio superior e inferior, de una


comisura a la otra trazando pequeos semicrculos.

lamerse los labios.

doblar la lengua hacia atrs.

con la boca abierta, llevar la lengua varias veces desde los incisivos
superiores a los inferiores.

movimiento giratorio de la lengua, recorriendo toda la superficie de los


labios. De izquierda a derecha y viceversa.

protruir libremente la lengua.

meter la lengua entre el labio superior y los incisivos superiores e


impulsarla con fuerza hacia fuera.

intentar alcanzar la nariz con la punta de la lengua.

presionar con la punta de la lengua una y otra mejilla.

Disglosia palatal
El tratamiento genrico consistir en:

ejercicios de respiracin nasales y bucales, y soplo.

reeducacin motriz del velo palatino:

soplo

succin

deglucin

bostezo

toser

hacer grgaras

ejercicios articulatorios.

3.4.3 Material y Recursos para la Disglosia


Se destacan aqu una serie de materiales y recursos encontrados que se consideran de
inters, para ver de una manera ms prctica y visual en que consiste el tratamiento
para las disglosias.
En primer lugar, mencionar el Protocolo de Evaluacin de Disglosias desarrollado por
el Grupo de Logopedia Escolar de Asturias [8]. Este protocolo es una gua con
preguntas e instrucciones para realizar una anamnesis completa, evaluacin de los
rganos bucofonatorios, orofaciales, determinar la discriminacin auditiva de sonidos
y palabras, as como para comprobar la articulacin de slabas y palabras, todo ello
enfocado a los posibles problemas relacionados con la disglosia. Algunas praxias

3.4. Disglosia 25

bucofonatorios de ejemplo seran: morderse los dos labios a la vez, inflar los carrillos,
apretar los labios, etc.
El Grupo de Trabajo Logopedia Escolar de Asturias define una serie de ejercicios para
la regin orofacial [10] donde se pueden encontrar una serie de praxias para el
trabajo de la deglucin atpica o alteraciones en los procesos y/o fases de la deglucin,
y un programa para el control del babeo. Tambin ejercicios para favorecer la
movilidad, fuerza, precisin y sensibilidad de los rganos bucofonatorios. Algunos
ejemplos seran masajes labiales, linguales, mandibulares, valopalatinos, as como
actividades de soplo y de succin. En general, se caracterizan por incorporar en las
praxias algunos objetos como bolis para sujetar con los labios, alimentos y las propias
manos para desarrollar los masajes.
La Asociacin Fisurados Palatinos [11] presenta unos recursos muy prcticos para el
trabajo de la Terapia Miofuncional. Este material se presenta en formato de juegos
(dados, parchs, memory, etc) para que sea ms fcil captar el inters de los nios.
Algunos de los ejercicios que se pueden realizar en esos juegos se pueden ver de
manera resumida en la Figura 3-2.

26 Estado del Arte

Figura 3-2 Ejercicios y Juegos para la Terapia Miofuncional

En Figura 3-3 y Figura 3-4 se muestran una serie de praxias para la movilidad
orofacial, empleadas por la logopeda Elisa Pereira [36], en diferentes charlas prcticas
que ella realiza para la estimulacin del lenguaje oral.

3.4. Disglosia 27

Figura 3-3 Praxias para la Movilidad Orofacial (1 de 2)

28 Estado del Arte

Figura 3-4 Praxias para la Movilidad Orofacial (2 de 2)

3.5

Estado del arte recursos tecnolgicos para la intervencin en trastornos del


habla y la voz

Tal y como describe Belloch [12] la intervencin en trastornos del habla y la voz se ha
aprovechado del potencial de las aplicaciones que permiten representar y tratar stas
de diferentes formas como por ejemplo:

Los sintetizadores de voz permiten que el ordenador genere locuciones a partir de


texto escrito.

Los visualizadores de habla permiten mostrar ondas de sonido a partir de la


emisin sonora.

Los sistemas de reconocimiento de voz, permiten que el estmulo sonoro genere


una determinada accin.

Los programas ms utilizados en el tratamiento e intervencin de los trastornos del


habla y voz son los denominados visualizadores fonticos o visualizadores del habla
dado que utilizan animaciones e imgenes como respuesta a la emisin de sonido y
como elementos fundamentales para la retroalimentacin y motivacin del paciente.
Gracias a ello ayudan a conocer la correcta articulacin de los fonemas mostrando, a
travs de animaciones, el movimiento de los diferentes rganos que intervienen en el
proceso. Entre ellos cabe destacar:

3.5. Estado del arte recursos tecnolgicos para la intervencin en trastornos del habla

y la voz

29

Los sonidos del habla: [16] Aplicacin web donde se presentan los diferentes
fonemas con su mecnica articulatoria a partir de sencillas animaciones con
sonido (ver Figura 3-5).

Figura 3-5 Captura de Pantalla de Los Sonidos del Habla

Phonetics: [17] Material desarrollado como animaciones flash, a los que podemos
acceder on-line, que permiten ver la mecnica articulatoria de cada uno de los
fonemas, con secuencias paso a paso de la animacin y posibilidad de visualizar la
produccin del fonema de forma aislada o bien de las palabras que lo contienen
(ver Figura 3-6).

Figura 3-6 Captura de Pantalla de Phonetics

30 Estado del Arte

Metavox: [18] Mediante este programa (ver Figura 3-7) podemos visualizar de forma
dinmica la posicin de los rganos fono-articulatorios con la presencia del aire
(emisiones fnicas), con lo que permite ejercitar las emisiones sonoras de los
fonemas. Mediante metavox podemos comparar y contrastar la mecnica
articulatoria de dos fonemas lo que puede resultar de gran inters para el
tratamiento de las dislalias y otros trastornos de articulacin.

Figura 3-7 Captura de Pantalla de Metavox

Segn Belloch [12] los programas ms utilizados para corregir alteraciones del habla y
la voz, son:

Los visualizadores del habla, que son aquellos programas basados en la


conversin de la emisin vocal en imagen. Los visualizadores del habla se
caracterizan por:

captar el sonido o la locucin a travs del micrfono;

analizar el sonido en funcin de sus componentes (intensidad, sonoridad,


duracin, tono) y;

Emitir un feedback o retroalimentacin visual en funcin de las caractersticas


del sonido emitido.

Los sistemas de reconocimiento de voz, se implementan en algunos visualizadores


del habla con el fin de que stos reconozcan el fonema emitido y respondan ante
su emisin. Los sistemas de reconocimiento de voz se caracterizan por:

captar el fonema, la slaba o la palabra a travs del micrfono;

comparar la locucin emitida con los fonemas modelo previamente grabados.


Estos modelos de fonemas deben ser grabados previamente, a partir de
emisiones modelo que guarden la mxima semejanza con el paciente o, en el
mejor de los casos y siempre que sea posible, utilizan como modelo una buena
emisin del fonema del propio paciente.

3.5. Estado del arte recursos tecnolgicos para la intervencin en trastornos del habla

y la voz

31

emitir un feedback o retroalimentacin visual en funcin del fonema


reconocido.

Entre los visualizadores del habla tenemos:

Speech Viewer (ver Figura 3-8) de la empresa IBM. Aunque actualmente est
descatalogado al no haber desarrollado la empresa versiones que soporten
versiones posteriores de Windows 95, sigue siendo utilizado en el mbito de la
logopedia. Contiene un conjunto de ejercicios que pueden utilizarse con pacientes
que tengan trastornos de audicin, del lenguaje y del habla. Es especialmente til
para personas que deseen modificar su inflexin, pronunciacin y calidad vocal. El
programa permite obtener unas mediciones sobre los atributos del habla tales
como: la sonoridad, el tono, la intensidad, la precisin de la produccin de
fonemas e incluso el ritmo del habla conocer y ejercitar las caractersticas de la voz
(tono, intensidad, duracin y sonoridad) mediante una retroalimentacin visual y
auditiva de las producciones verbales. Asimismo, contiene ejercicios cuyo objeto es
la reeducacin fonolgica y la prosodia.

Figura 3-8. Captura de Pantalla de Speech Viewer

Los programas del proyecto Fressa [19], desarrollado para atender las necesidades
de sujetos con discapacidad motora, visual y/o trastornos de audicin. En
concreto nos interesan los programas:

Globus. Dispone de diferentes ejercicios orientados a estimular la articulacin


del habla. Realiza representaciones grficas de los rasgos suprasegmentales de
la voz en la pantalla, y con ellas los pacientes pueden percibir visualmente sus
producciones voclicas y ejercitarse para ajustar su voz a las mismas. Aunque
est dirigido fundamentalmente a personas con discapacidad auditiva, puede
ser tambin de utilidad en el tratamiento de trastornos fonolgicos y errores

32 Estado del Arte

prxicos. Ofrece 17 tipos de ejercicios sobre (ver Figura 3-9): ausenciapresencia de sonido, cualidades del sonido (intensidad, duracin y tono),
espectograma y sonograma.

Figura 3-9 Captura de Pantalla de Globus.

Discriminacin de Fonemas. El objetivo general del programa es facilitar a


personas con deficiencias auditivas o trastornos del habla, la discriminacin y
correcta articulacin de fonemas. Este programa permite realizar ejercicios y
juegos para los que se requiere el control de los mismos a travs de la voz. Los
fonemas a ejercitar y discriminar pueden ser seleccionados por el logopeda,
pudiendo realizarse ejercicios de comparacin fonolgica. Para ello, se pueden
utilizar como patrones los fonemas previamente grabados del paciente o de
otra persona con caractersticas similares en cuanto a voz.

Los programas del proyecto COMUNICA [20]. Este proyecto presenta los resultados
de la colaboracin del Grupo de Tecnologas de las Comunicaciones (GTC) del
Instituto en Investigacin en Ingeniera de Aragn (I3A) en la Universidad de
Zaragoza con los profesionales de ayudas tcnicas del Colegio Pblico de
Educacin Especial "Alborada" (C.P.E.E. Alborada) para poner al servicio de la
comunidad educativa la investigacin en Tecnologas del Habla. Los programas
desarrollados son los siguientes:

Prelinga presenta diferentes actividades que, de una manera muy visual,


permiten trabajar algunos elementos como la distincin de la emisin de voz,
intensidad, tono, respiracin, vocalizacin (ver Figura 3-10).

3.5. Estado del arte recursos tecnolgicos para la intervencin en trastornos del habla

y la voz

33

Figura 3-10 Captura de Pantalla de Prelinga

Vivo permite en una sola pantalla ver la intensidad, frecuencia fundamental y


formantes del paciente; est pensado para permitir ver en tiempo real la
produccin de voz (ver Figura 3-11).

Figura 3-11 Captura de Pantalla de Vivo.

Vocaliza y Vocaliza-2 (ver Figura 3-12) trabajan el nivel articulatorio del


lenguaje mediante la repeticin de palabras, frases sencillas y adivinanzas.
Ambos programas presentan un refuerzo visual y auditivo al paciente e indican
la calidad de su pronunciacin. Para ello utilizan un sistema de reconocimiento
automtico del habla. Ambos programas son similares, diferencindose en que
Vocaliza evala la produccin a nivel de palabra, mientras que Vocaliza-2
proporciona una evaluacin a nivel de fonema.

Figura 3-12 Captura de Pantalla de Vocaliza.

34 Estado del Arte

ReFoCas (ver Figura 3-13) ayuda a la adquisicin de registros fonolgicos.


Permite grabar la voz del paciente, visualizarla cuantas veces sea necesario,
evaluarla y revisar la evaluacin realizada.

Figura 3-13 Captura de Pantalla de ReFoCas.

3.6

Conclusiones

Como se ha mencionado anteriormente el tratamiento de la disglosia puede implicar el


uso de diferentes tcnicas como ciruga, electroterapia, masaje digital, prtesis y
ortodoncias, pero no siempre es necesario, sin embargo, en prcticamente la totalidad
de los casos se recomienda una terapia funcional, o estimulacin del lenguaje.
Dicha terapia funcional para el tratamiento de la disglosia, contempla en algunos
casos ejercicios de respiracin, masticacin, succin, soplo, deglucin correcta y
masajes con electroterapia, pero los ejercicios recomendados en todos los casos y que
mayor importancia tienen para los logopedas son dos:

ejercicios articulatorios de fonemas y palabras

praxias para la movilidad orofacial (labios, mejillas, boca, lengua y mandbula).

En el apartado anterior se han descrito una serie de recursos tecnolgicos para la


reeducacin del habla, centrndose todos ellos en los ejercicios articulatorios, siendo
de especial inters los visualizadores del habla que incorporan sistemas de
reconocimiento de voz. Sin embargo, ninguno de ellos aporta algn tipo de solucin o
funcionalidad en el mbito de la movilidad orofacial.
Por lo tanto, se hace patente la necesidad de una solucin que permita la
monitorizacin de la cara, de manera que, una vez se planteen las actividades
apropiadas para cada caso, sea capaz de detectar el grado de ejecucin de stas por
parte del nio. Sin embargo, sera de gran importancia que dicha solucin incorpore
visualizadores del habla y sistemas de reconocimiento de voz para aunar las
caractersticas necesarias que satisfagan la terapia funcional de la disglosia.

Captulo 4
4 Trabajo de Investigacin
4.1

Introduccin

Como se ha podido ver en el captulo anterior la terapia funcional para el tratamiento


de la disglosia se basa fundamentalmente en ejercicios articulatorios de fonemas y
palabras, as como en praxias para la movilidad orofacial (labios, mejillas, boca,
lengua y mandbula). Tambin se ha argumentado que los recursos tecnolgicos
existentes para la reeducacin del habla contemplan los ejercicios articulatorios pero
ninguno de ellos ofrece funcionalidad alguna en el mbito de la movilidad orofacial.
Existe por lo tanto una necesidad que ha de ser satisfecha por la tecnologa para
realizar la monitorizacin facial orientada a las praxias de movilidad orofacial. Si
adems sta se puede completar con visualizadores del habla y sistemas de
reconocimiento de voz, se obtendra una solucin integral.
En el siguiente apartado, se describen algunos estndares a aplicar en el mbito de la
monitorizacin facial. A continuacin, en la seccin 4.3, se describen las tecnologas
identificadas que podran dar soporte a dicha solucin. Finalmente, en la seccin 4.4
se hace un anlisis de las diferentes tecnologas en relacin a las necesidades
previamente identificadas.
4.2

Estndares en el mbito de la monitorizacin facial

En las siguientes secciones se describen los estndares actualmente disponibles


orientados a la monitorizacin facial.
4.2.1 MPEG-4 Face and Body Animation (MPEG-4 FBA)
Es la parte del Estndar Internacional MPEG-4 (ISO14496) [23] que se ocupa de la
animacin de personajes humanos o similares a los humanos. MPEG-4 FBA es la
parte de dicho estndar que especifica todo aquello que est relacionado con la cara,
concretamente:
35

36 Trabajo de Investigacin

Un conjunto de 68 Parmetros de Animacin de la Cara (Face Animation


Parameters - FAPs). stos se pueden agrupar como aparece en la Tabla 4-1 y para
comprender mejor su significado se clasifican en dos categoras:

66 parmetros de bajo nivel los cules estn basados en el estudio de acciones


faciales mnimas y representan un conjunto completo de acciones faciales
bsicas por lo que permiten la representacin de la mayora de las expresiones
faciales naturales. Estos parmetros estn muy relacionadas con acciones de
los msculos de la cara, como por ejemplo: desplazamiento lateral de la
mandbula, desplazamiento vertical de la mandbula, desplazamiento vertical
de la esquina izquierda del labio, desplazamiento horizontal de la mejilla
derecha, etc.

2 parmetros de alto nivel:


o

Visemas. Un visema es una referencia visual de un fonema, es decir, de la


posicin de la boca al emitir un sonido determinado. El parmetro puede
contener 2 de los visemas de una lista predefinida de 14 (ver Tabla 4-2).

Expresiones faciales. Este parmetro puede contener dos valores de una


lista predefinida de 6 expresiones faciales: alegra, tristeza, enfado, miedo,
disgusto y sorpresa.
Tabla 4-1 Grupos de FAPs.

Grupo
1: Visemas y Expresiones faciales

N FAPs en el grupo
2

2: Mandbula, mentn, labio inferior interno,


esquinas labios, centro labios

16

3: Globos oculares, pupilas, prpados

12

4: Cejas

5: Mejillas

6: Lengua

7: Rotacin de la cabeza

8: Posiciones labio exterior

10

9: Nariz

10: Orejas

4.2. Estndares en el mbito de la monitorizacin facial 37


Tabla 4-2 Listado de Visemas.

N Visema

Nombre Visema

Algunos fonemas

Ejemplo

nulo

no

no

PP

p, b, m

Put, bed, mill

FF

f, v

Far, voice

TH

T, D

Think, that

DD

t, d

Tip, doll

Kk

k, g

Call, gas

CH

tS, dZ, S

Chair, join, she

SS

s, z

Sir, zeal

nn

n, l

Lot, not

RR

Red

10

Aa

A:

Car

11

Bed

12

ih

Tip

13

oh

Top

14

ou

book

Todos los FAP se expresan como desplazamientos de las posiciones definidas sobre
la cara neutral del personaje, esto es, cuando todos los FAPs estn a cero. Esta
cara neutral se define como:

El sistema de coordenadas es diestro; los ejes de la cabeza estn en paralelo a


los ejes mundo.

La mirada est en la direccin del eje Z.

Todos los msculos estn relajados.

Prpados se encuentran tangentes al iris.

La pupila es un tercio de IRISD0 (ver Figura 4-2).

Los labios estn en contacto, la lnea de los labios est horizontal y a la misma
altura de las comisuras de los labios.

La boca est cerrada y los dientes superiores tocan los inferiores.

La lengua est plana y horizontal con la punta de la lengua tocando el lmite


entre los dientes superiores e inferiores (FP 6.1 tocando FP9.11 en Figura 4-1).

Para consultar un listado completo con las definiciones de todos los FAPs
consultar los anexos I, II, III de MPEG-4 FBA An Overview [21].

Un conjunto de Puntos Caracterstica (Feature Points FP) de la cara para


cualquier aplicacin que necesite referencias faciales bien definidas, como por
ejemplo punta de la nariz, barbilla, etc (ver todos en la Figura 4-1).

38 Trabajo de Investigacin

Figura 4-1 Puntos Caracterstica (FPs) definidos en MPEG-4 FBA

Todos los parmetros de bajo nivel se expresan en trminos de Unidades de


Parmetros de Animacin de la Cara (Face Animation Parameter Units FAPUs), ver
Figura 4-2. Estas unidades estn definidas para permitir la interpretacin de los FAPs
en cualquier modelo de cara de una manera consistente, produciendo resultados

4.2. Estndares en el mbito de la monitorizacin facial 39

razonables en trminos de expresin y pronunciacin de sonidos. Las unidades se


definen en trminos de distancia entre los Puntos Caracterstica (FPs). Para cada
parmetro FAP se define en que FP acta, en qu direccin se mueve y qu FAPU se
usa como unidad para su movimiento.

Figura 4-2 Face Animation Parameter Units (FAPU)

Por ejemplo, el FAP nmero 3 open_jaw, mueve el FP 2.1 (parte inferior de la


barbilla, ver Figura 4-1) hacia abajo y se expresa en unidades MNS. La unidad
MNS (mouth-nose separation) se define como la distancia entre la nariz y la boca
dividido por 1024 (ver Figura 4.2). Por ejemplo, un valor de 512 para el FAP
nmero 3 significa que la parte inferior de la barbilla se ha movido hacia abajo a la
mitad de la separacin entre boca y nariz. La divisin por 1024 se introduce para
tener unidades lo suficientemente pequeas para que los FAPs puedan ser
representados con nmeros enteros.
Para profundizar sobre MPEG-4 FBA se recomienda la lectura del propio estndar [23]
as como el libro de Pandzic [22].
4.2.2 CANDIDE
CANDIDE es una mscara facial parametrizada, desarrollada especficamente para la
codificacin de rostros humanos basado en modelos. Su bajo nmero de polgonos
(aproximadamente 100) permite la reconstruccin rpida con una apropiada potencia
de clculo. Esta modelo ha pasado por diferentes versiones desde su aparicin tal y
como se puede apreciar en la Figura 4-3.

40 Trabajo de Investigacin

Figura 4-3 Versiones de CANDIDE

El modelo CANDIDE fue creado en 1987 por Mikael Rydfalk [26], motivado por los
primeros intentos de Forchheimer [27] [28] de desarrollar compresin de imgenes a
travs de la animacin, lo que ms tarde se denominara basado en modelos, basado
en objetos o codificacin semntica, Bill Welsh [29]. Esta versin tena 75 vrtices y
100 tringulos y no fue muy utilizada.
La versin que empez a ser difundida y que convirti a CANDIDE en un estndar de
facto, es un modelo levemente modificado con 79 vrtices, 108 tringulos y 11 AU.
Este modelo fue creado por Mrten Strmberg al implementar el primer paquete
software CANDIDE, denominado CANDIDE-1.
Ms tarde, Bill Welsh [29] en British Telecom cre otra versin con 160 vrtices y 238
tringulos cubriendo la totalidad de la parte frontal de la cabeza (incluyendo pelo y
dientes) y los hombros. Esta versin se denomina CANDIDE-2, y est incluida en el
paquete de software CANDIDE pero slo incluye 6 AUs.
Gracias a estas versiones, CANDIDE consigui ser un modelo de caras muy utilizado
en laboratorios de investigacin de todo el mundo, debido a su simplicidad y a su
disponibilidad pblica, pero tena una serie de inconvenientes, fundamentalmente
debido a su simplicidad. Adems, la aparicin del estndar MPEG-4 FBA hizo
necesaria la actualizacin para hacer el modelo compatible con las FAPs y FPs
definidos en MPEG-4 FBA. De esta manera, en 2001 Jrgen Ahlberg [30] defini una
nueva versin, CANDIDE-3, derivada de la primera versin, aadiendo 20 vrtices a
sta y cumpliendo los requisitos de MPEG-4 FBA pero siendo algo ms sencillo.
CANDIDE se controla mediante Unidades de Accin (Action Units AUs) globales y
locales. Las globales se corresponden a rotaciones alrededor de los tres ejes, las
locales controlan la mmica de la cara de manera que se pueden obtener diferentes
expresiones. El concepto de Unidades de Accin fue descrito hace ms de 40 aos por
el investigador

sueco

Carl-Herman

Hjortsj

[24].

Este trabajo fue ampliado

posteriormente por Paul Ekman and Wallace V. Friesen del Medical Center de la
Universidad de California, a lo que se denomina FACS, Facial Action Coding System
[25].
En CANDIDE-3 se habla de Action Unit (AU) para referirnos a algo que se hace en la
cara con una simple activacin de un msculo facial, y Action Unit Vector (AUV) es la
implementacin correspondiente (de uno o ms AUs). Por ejemplo, la AU 43 (ojos

4.2. Estndares en el mbito de la monitorizacin facial 41

cerrados) y la 45 (parpadeo) se implementan por el AUV 6, es bastante obvio que


ambas acciones son diferentes pero tambin lo es que ambas deberan ser
implementadas por el mismo AUV. En el apndice C de [30] se pueden ver el listado de
AUs y AUVs de CANDIDE-3. En el apndice A de [30] se puede consultar el listado de
los 113 vrtices de CANDIDE-3 y los FPs correspondientes para MPEG-4 FBA. En el
apndice B de [30] se puede ver la correspondencia contraria.
CANDIDE-3 proporciona 12 Unidades de Forma (Shape Unit SU) que permiten
modelar las formas de cabeza ms habituales. Para permitir una variacin ms amplia
de formas de cabeza, el usuario puede aadir ms SUs o mover vrtices
individualmente. Las SUs incluidas son: altura de la cabeza, posicin vertical de las
cejas, posicin vertical de los ojos, ancho de los ojos, alto de los ojos, distancia entre
los ojos, lo que sobresalen las mejillas, lo que sobresale la nariz, posicin vertical de la
nariz, posicin vertical de la punta de la nariz (a donde apunta), posicin vertical de la
boca, ancho de la boca.
Para entender mejor la relacin entre CANDIDE-3 y MPEG-4 FAB se detallan a
continuacin correspondencias y diferencias:

Casi todos los FPs tienen su vrtice correspondiente, exceptuando:


o

CANDIDE no tiene lengua.

CANDIDE no representa toda la cabeza, no contempla la parte superior


de la columna vertebral (FP 7.1) ni la parte posterior del crneo (FP
11.6).

CANDIDE-3 no tiene dientes (FP 9.9 y 9.11)

CANDIDE-3 no tiene pelo ni el espesor de ste (FP 11.5).

Las Face Animation Parameter Units (FAPU) en CANDIDE-3 son las mismas
que en MPEG-4 FBA pero se calculan como se indica en la Tabla 4-3, siendo
rpupil el punto medio de los vrtices 69, 70, 73 y 74. lpupil es el punto medio
de los vrtices 68, 69, 71 y 72. pupil.y es la media de lpupil.y y rpupil.y
Tabla 4-3 FAPUs en CANDIDE-3

FAPU

Descripcin

Clculo Vrtices

AU

Unidad Angular

10-5 rad

MW

Ancho boca

31.x 64.x

MNS

Separacin boca-nariz

6.y 87.y

ENS

Separacin ojos-nariz

pupil.y 6.y

ES

Separacin ojos

rpupil.x lpupil.x

IRISD

Dimetro IRIS

73.y 74.y

Muchos FAPs pueden ser implementados en CANDIDE-3, pero no todos:


o

FAPs 43 a 47 (lengua)

FAPs 65 a 68 (orejas)

42 Trabajo de Investigacin

CANDIDE-3 es empleado en multitud de laboratorios de investigacin y se ha


convertido en un estndar de facto, prueba de ello es que incluso las empresas lo
emplean en su software, destacando:

Para monitorizacin facial usando una cmara, Visage Technologies ha lanzado


VISAGE | SDK VISION-T.

Para monitorizacin facial usando Kinect, Microsoft ha lanzado Face Tracking


SDK.

4.3

Tecnologas Existentes

Tal y como se present en el captulo 3, existe necesidad de tecnologa para el


tratamiento de la Disglosia. En esta seccin se describen las alternativas existentes
que permitiran abordar un desarrollo integral.
4.3.1 Face Tracking SDK for Kinect for Windows
El sensor Kinect [39] es un dispositivo (ver Figura 4-4) lanzado en Noviembre de 2010
por Microsoft destinado a la industria de los videojuegos, concretamente, como
perifrico de la video-consola Xbox 360 de Microsoft. Su principal innovacin es que
permite a los usuarios controlar e interactuar con la consola sin necesidad de tocar
ningn controlador de juego fsicamente, a travs de una interfaz de usuario natural
basado en gestos y comandos de voz. Sin embargo, debido a su gran xito entre la
comunidad de desarrolladores y pblico en general, Microsoft no tard en lanzar una
versin especfica para PCs as como su propio SDK5 o conjunto de herramientas de
desarrollo para crear aplicaciones.

Figura 4-4 Microsoft Kinect for Windows

Microsoft Kinect es un dispositivo de interaccin natural y multimodal. Proporciona


los siguientes componentes (ver Figura 4-5):

Software Development Kit

4.3. Tecnologas Existentes 43

Un sensor de profundidad: Formado por un proyector infrarrojo y un sensor de


deteccin de luz monocromtico que permite captar el espacio en tres
dimensiones bajo cualquier condicin de luz.

Una cmara de video RGB (sensor de deteccin de luz RGB): Capta imgenes
con color real y se utiliza para el reconocimiento facial y corporal de los
usuarios.

Cuatro micrfonos direccionales: Permiten detectar la procedencia de las voces


(diferencia entre micrfonos).

Un procesador con memoria cach: Se encarga de gestionar toda la


informacin que proviene de los otros componentes.

Un motor: Permite ajustar la inclinacin del dispositivo para facilitar el


encuadre de la imagen.

Figura 4-5 Componentes de Sensor Microsoft Kinect

En el mbito de este trabajo es importante destacar la importancia de dos aspectos:

Los micrfonos direccionales. Tpicamente los micrfonos convencionales se


han utilizado para soluciones relacionadas con el habla, sin embargo, se han
encontrado problemas relacionados con la mala calidad de sonido en ciertos
ambientes. Sin embargo, Kinect puede orientar los micrfonos hacia las
personas que estn hablando optimizando la calidad del sonido recibido.

La ventaja cualitativa ms importante en comparacin con otros dispositivos


de su familia es la percepcin de la profundidad que dispone Kinect. Con una
cmara RGB se puede captar una imagen en dos dimensiones y se puede
obtener una realidad muy precisa del entorno. El sensor de profundidad de
Kinect proporciona una nueva percepcin del mundo real, la profundidad o
tercera dimensin.

Microsoft ha anunciado el lanzamiento para el ao 2014 de la nueva Kinect 2 for


Windows. La llegada de esta tecnologa ms avanzada de reconocimiento gestual y

44 Trabajo de Investigacin

auditivo a los ordenadores permitir el desarrollo de nuevas aplicaciones en este


campo. El nuevo sensor incluye una cmara en color de alta definicin y un micrfono
con tecnologa de eliminacin de ruido, compatible con filtros de voz y capaz de
reconocer la voz natural incluso en habitaciones llenas de gente. Incluye la tecnologa
propiedad de Microsoft Time-of-flight, capaz de medir el tiempo que tardan los
fotones en rebotar en un objeto y regresar y de este modo conseguir una increble
precisin de movimiento. En este sentido, reconoce pequeas variaciones, como por
ejemplo un giro rpido de mueca o el brillo de una prenda de ropa. El aumento del
tamao del campo de visin del nuevo Kinect se adapta a habitaciones de multitud de
tamaos. La combinacin del nuevo sensor de alta fidelidad y el aumento del campo
de visin facilita un reconocimiento gestual ms fluido y con mayor fidelidad. Tambin
reconoce objetos en oscuridad total gracias a su visin nocturna. El nuevo sensor de
Microsoft rastrea ms puntos del cuerpo humano que su predecesor para Xbox,
siendo capaz de reconocer la palma de la mano y el pulgar y rastrear seis cuerpos al
mismo tiempo. Esta nueva tecnologa no solo tiene amplias utilidades a la hora de
controlar el ordenador sino que abre un campo de uso en los procesos de
rehabilitaciones y en los ejercicios fsicos as como en la mejora de la experiencia de
usuario en espacios pblicos como una tienda.
Kinect for Windows SDK 1.7 es la ltima versin del kit de desarrollo oficial lanzado
por Microsoft para crear aplicaciones para el sensor Kinect. Desde la versin 1.5 del
Kit se puede encontrar el Face Tracking SDK que permite crear aplicaciones que
puedan rastrear los rostros humanos en tiempo real. Este kit analiza la entrada de
una cmara Kinect, deduce la postura de la cabeza y las expresiones faciales, y hace
que la informacin est disponible para una aplicacin en tiempo real. Por ejemplo,
esta informacin se puede utilizar para reproducir la posicin de la cabeza y las
expresiones faciales de una persona mediante un avatar en un juego, en aplicaciones
de comunicaciones, para conducir una interfaz de usuario natural, etc.
Especificaciones Tcnicas
El Face Tracking SDK utiliza el sistema de coordenadas de Kinect para la salida de los
resultados de seguimiento 3D. El origen se encuentra en el centro ptico de la cmara
(sensor), el eje Z apunta hacia un usuario, el eje Y hacia arriba. Las unidades de
medida son metros para los traslados y grados para los ngulos de rotacin.
La mscara computarizada 3D tiene coordenadas que la colocan sobre la cara del
usuario (en el sistema de coordenadas de la cmara), como se muestra en la Figura
4-6.

4.3. Tecnologas Existentes 45

Figura 4-6 Espacio Cmara

El Face Tracking SDK Kinect recibe las imgenes de color y de profundidad como
entrada. La calidad de seguimiento puede verse afectada por la calidad de imagen de
estas tramas de entrada (esto es, las tramas ms oscuras o ms borrosas permiten un
seguimiento peor que las tramas ms brillantes o ms definidas). Adems, las caras
ms grandes o ms cercanas permiten un seguimiento mejor que las caras ms
pequeas.
Resultados del seguimiento facial
Esta seccin proporciona detalles sobre la salida del motor de seguimiento de la cara.
Cada vez que se llama a StartTracking o ContinueTracking, se actualiza la siguiente
informacin:

Puntos Caracterstica (FPs) en 2 dimensiones: El Face Tracking SDK realiza el


seguimiento de los 87 puntos 2D indicados en la Figura 4-7, adems de 13
puntos, que no se muestran en la Figura, que incluyen:
o

El centro de los ojos, las comisuras de la boca, y el centro de la nariz.

Un cuadro delimitador alrededor de la cabeza.

Sin embargo, si se solicitan coordenadas 3D entonces el nmero de puntos se


ampla a 121. Estos puntos se devuelven en una matriz, y se definen en el
espacio de coordenadas de la imagen RGB (en la resolucin 640 x 480)
devueltos por el sensor Kinect.

46 Trabajo de Investigacin

Figura 4-7 Puntos 2D seguidos por Face Tracking SDK

Postura de la cabeza en 3 dimensiones: La posicin de la cabeza del usuario en


los ejes X, Y, y Z se reportan con base en un sistema de coordenadas de mano
derecha (con el origen en el sensor, Z apunta hacia el usuario e Y apuntando
hacia arriba). Las traducciones son en metros. Como se indica en la Figura
4-8, la postura de la cabeza del usuario es capturada por tres ngulos (cuyos
posibles valores se pueden ver en la Tabla 4-4): cabeceo, balanceo y giro.

Figura 4-8 ngulos que determinan postura de la cabeza para Face Tracking SDK

4.3. Tecnologas Existentes 47


Tabla 4-4 Valores de ngulos de la postura de la cabeza para Face Tracking SDK

ngulo

Valor
-90 = Mirando hacia el suelo.

Cabeceo

+90 = Mirando hacia el techo.

(0=neutral)

Face Tracking sigue la cabeza del usuario cuando el cabeceo es menor


de 20 grados, pero funciona mejor cuando es menor de 10 grados.
-90 = Horizontal paralelo al hombro del usuario.

Balanceo
(0=neutral)

+90 = Horizontal paralelo al hombro izquierdo del usuario.


Face Tracking sigue el balanceo de la cabeza del usuario cuando es
menor de 90 grados, pero funciona mejor cuando es menor de 45
grados.
-90 = Girado hacia el hombro derecho del usuario.

Giro

+90 = Girado hacia el hombro izquierdo del usuario.

(0=neutral)

Face Tracking sigue el giro de la cabeza del usuario cuando es menor


de 45 grados, pero funciona mejor cuando es menor de 30 grados.

Animation Units (AUs): Se recogen seis AUs que son un subconjunto de las que
se definen en el modelo Candide3 (ver seccin 4.2.2). Las AUs son variaciones
de la forma neutra que se pueden utilizar, por ejemplo, para dar forma a
modelos animados avatar de manera que ste acte como el usuario sobre el
que se hace seguimiento, como si estuviera ante un espejo. En la Tabla 4-5 se
pueden

ver

las

AUs

que

recoge

Face

Tracking

SDK,

as

como

la

correspondencia con las AUs de Candide3. Cada AU se expresa como un peso


numrico que vara entre -1 y 1.

48 Trabajo de Investigacin
Tabla 4-5 Animation Units en Face Tracking SDK y correspondencia con Candide3

AU Nombre y Valor

Ilustracin avatar

Interpretacin Valor

Cara neutral
(todas las AUS a 0)

0=neutral, cubriendo la
dentadura
AU 0 Labio superior elevado

1=mostrando por completo la

(En Candide 3 es AU10)

dentadura
-1=labio hacia abajo lo mximo
posible

AU 1 Mandbula inferior

0=cerrado

bajada

1=totalmente abierto

(En Candide 3 es AU26/27)

-1= cerrado, como 0

0=neutral
1=totalmente estirado (sonrisa
AU 2 Estiramiento de labios

de joker)

(En Candide 3 es AU20)

-0.5=redondeado (mala cara)


-1=totalmente redondeado (boca
de beso)
0=neutral

AU 3 Cejas bajadas

-1=elevadas casi todo el trayecto

(En Candide 3 es AU4)

+1=totalmente bajadas (al lmite


de los ojos)

AU 4 Depresor esquinas

0=neutral

labios

-1=sonrisa muy feliz

(En Candide 3 es AU13/15)

+1=muy triste

0=neutral
AU 5 Exterior cejas elevadas
(En Candide 3 es AU2)

-1=totalmente bajadas como una


cara muy triste
+1=elevedas como expresin de
gran sorpresa

4.3. Tecnologas Existentes 49

Shape Units (SUs): Se recogen 11 SUs que son un subconjunto de las que se
definen en el modelo Candide3. Las SUs realizan una estimacin de la forma
particular de la cabeza del usuario: la posicin neutral de su boca, las cejas,
los ojos, etc. Cada SU especifica los vrtices a los que afecta y el
desplazamiento (x, y, z) por vrtice afectado. En la Tabla 4-6 se puede ver las
SUs que recoge Face Tracking SDK, as como la correspondencia con las SUs
de Candide3. Face Tracking SDK no recoge las siguientes SUs de Candide3: lo
que sobresalen las mejillas (SU 6), lo que sobresale la nariz (SU 7), posicin
vertical de la punta de la nariz (SU 9).
Tabla 4-6 Shape Units en Face Tracking SDK y correspondencia con Candide3

SU Nombre

Correspondencia en Candide3

Altura de la cabeza

Posicin vertical cejas

Posicin vertical ojos

Ancho de los ojos

Altura de los ojos

Distancia separacin ojos

Posicin vertical nariz

Posicin vertical boca

10

Ancho de la boca

11

Diferencia vertical ojos

No existe

Ancho del mentn

No existe

Modelo de la cara en 3D: Face Tracking SDK trata de encajar una mscara 3D
a la cara del usuario. Este modelo en 3D est basado en el de Candide3.

4.3.2 Visage SDK FaceTrack


Visage SDK FaceTrack [40] es un potente motor de seguimiento de las caractersticas
de la cabeza y la cara completamente configurable. Dicho motor permite encontrar y
rastrear el rostro y los rasgos faciales a partir de secuencias de vdeo en tiempo real
(por ejemplo, 30 fotogramas por segundo) y devolver la postura de la cabeza en 3D
(traslacin y rotacin),

direccin

de la mirada, coordenadas de los

Puntos

Carcterstica (FPs) y una gran cantidad de informacin adicional. Para ofrecer dicha
funcionalidad el motor se basa en el ajuste de un modelo 3D de la imagen facial as
como en la estimacin del movimiento en 3D de la cabeza y de la expresin facial. Esta
tecnologa se ofrece mediante un SDK en C++, que est bien documentado.

50 Trabajo de Investigacin

Caractersticas Principales

Para cada frame de video procesado, devuelve gran cantidad de informacin de


la cabeza (ver lista detallada en el siguiente apartado).

Dependiendo de la configuracin, se puede seguir el contorno de la boca, la


colocacin de la barbilla, contorno de cejas y la rotacin de los ojos (direccin
de la mirada).

Funcionamiento

completamente

automtico

aunque,

para

una

mayor

precisin, se puede hacer un refinamiento manual en el ajuste del frame de


video inicial. Este tipo de configuracin se puede guardar y volver a utilizar.

Recuperacin robusta ante las prdidas debido a oclusiones, cara fuera del
alcance, personas que van y vienen, etc.

Reinicio automtico si una nueva persona aparece delante de la cmara.

Funciona a partir de imgenes de una cmara web o archivos de vdeo AVI.

La interfaz de imagen permite el seguimiento desde cualquier fuente de vdeo.

Funciona con video en color o en escala de grises (proceso interno realizado en


escala de grises).

Permite algunas funcionalidades de seguimiento a partir de vdeo infrarrojo.

No se necesitan marcas o maquillaje en la cara.

Tamao mnimo de la cara en la imagen de vdeo es de aproximadamente 80


pxeles de ancho.

Resolucin de vdeo de entrada mnimo es aproximadamente 320 240. Las


resoluciones ms altas (por ejemplo, 640 480, 800 600), dan mejores
resultados.

Durante la rotacin de la cabeza se realiza un seguimiento de hasta


aproximadamente 45 grados.

Resultados del seguimiento facial


El rastreador ofrece un API fcil de usar para acceder a los datos de seguimiento en
tiempo real durante la operacin de rastreo. Los datos disponibles incluyen:

Postura de la cabeza en 3D (traslacin y rotacin).

Coordenadas de los Puntos Caracterstica (FPs) en el espacio 3D global, con


respecto a la cabeza o en el espacio de la imagen en 2D. Los FPs se especifican
de acuerdo al estndar MPEG-4 FBA.

Direccin de la mirada.

Un conjunto de Unidades de Accin (AUs) que describen la expresin facial


actual.

Face Animation Parameters (FAPs) del estndar MPEG-4 FBA.

Modelo 3D de la cara (ver Figura 4-9) con la postura y expresin actual,


devuelta como una nica textura de malla de tringulos 3D.

4.3. Tecnologas Existentes 51

Figura 4-9 Modelo 3D de Visage SDK FaceTrack

4.3.3 Otras tecnologas de desarrollo para Kinect


Como explica Xavier Snchez [37], originalmente, Kinect era un dispositivo fabricado
para ser utilizado nicamente con la videoconsola Xbox360 pero el abanico de
funcionalidades se ampliaba si se utilizaba en un PC, aunque Microsoft no dispona de
ninguna herramienta de desarrollo para poder utilizar Kinect en otros dispositivos.
Debido a esto, algunos programadores y empresas especializadas en cdigo abierto
trabajaron hasta publicar un driver no oficial para Kinect. Se repasan aqu dichas
tecnologas para mostrar un estado del arte ms completo, aunque para el mbito de
este trabajo no son de gran relevancia al no considerarse necesarias por disponer en
la actualidad del Kinect for Windows SDK. Especialmente para este trabajo, dentro de
dicho SDK, Face Tracking SDK, facilita y optimiza el desarrollo de aplicaciones y ms
an en el mbito de la monitorizacin facial, siendo un entorno de desarrollo
totalmente integral.
Para disponer de una herramienta de desarrollo para Kinect son necesarios los
siguientes componentes:

Drivers y libreras para desarrollo para Kinect:

Libfreenect [41]: Paquete formado por un driver y una librera para Kinect.
Desarrollado por la comunidad de programadores de cdigo abierto ms
extensa del mundo orientada nicamente a Kinect, OpenKinect [42]. Codificado
en varios lenguajes de programacin y disponible para una gran diversidad de
dispositivos como ordenadores, dispositivos mviles, etc ...

CL NUI Platform [43]: Solucin de cdigo abierto para Kinect de muy fcil
instalacin y utilizacin. Disponible nicamente para Windows y con libreras
precompiladas. Code Laboratories [44] es la empresa especializada en software
de cdigo abierto encargada de desarrollar este driver y otros, como por
ejemplo, CL EYE Platform (cmara de PlayStation 3).

52 Trabajo de Investigacin

PrimeSenseNITE [45]: Paquete de driver y librera, desarrollado por PrimeSense,


la empresa encargada de fabricar Kinect para Microsoft. PrimeSense adems
fabrica otros dispositivos con las mismas caractersticas que Kinect para la
interaccin con dispositivos multimedia.

En la Tabla 4-7 se muestra, para cada driver, la compatibilidad con diferentes


sistemas operativos, lenguajes de programacin. Adems, se indica el tipo de
licencia y el grado de dificultad de la instalacin del driver.
Tabla 4-7 Comparativa entre diferentes drivers para Kinect

Libfreenect

CL NUI Platform

PrimeSenseNITE

Windows

Si

Si

Si

Linux

Si

No

Si

OS X

Si

No

Si

.Net

Si

Si

Si

Java

Si

No

Si

Instalacin

No Fcil

Fcil

No Fcil

Tipo Licencia

Apache 2.0
/ GPL2

GNU Lesser
GNU GPL

General Public
License

Entorno de procesamiento de imgenes: Los entornos en procesamiento de imagen


ofrecen un conjunto de tcnicas y mtodos orientados al tratamiento de imgenes
digital para facilitar la bsqueda de informacin en las imgenes. Los ms
comunes son:

OpenCV [46]: Es uno de los entornos en procesamiento de imgenes ms


populares. De cdigo abierto y gratuito, est implementado con C++. Su gran
cantidad de mtodos y efectos digitales proporciona una amplia funcionalidad
al programador. Disponible tambin para C# bajo el nombre EmguCV.

OpenNI [47]: Es un entorno de cdigo abierto, multiplataforma y disponible en


varios idiomas. Formado por un conjunto de interfaces especialmente creadas
para desarrollar aplicaciones con interaccin natural (NI), es decir, aplicaciones
controladas por movimientos humanos.

Java Advanced Imaging [48]: Son un conjunto de algoritmos que implementan


un gran nmero de funcionalidades en el tratamiento de imgenes como
clculo de reas, grafismo y tratamiento de imgenes.

La Tabla 4-8 indica para cada entorno, que tipo de licencia, tipo de sistema
operativo y lenguajes de programacin son compatibles para cada entorno.

4.4. Anlisis de la Tecnologa 53


Tabla 4-8 Comparativa entre diferentes entornos de procesamiento de imgenes

OpenCV

OpenNI

ImageJ

Windows

Si

Si

Si

Linux

Si

Si

Si

OS X

Si

Si

Si

.Net

C++/C# (EmguCV)

Si

No

Java

Si

Si

Si

Tipo Licencia

BSD

GNU GPL

GNU GPL

Entorno o lenguaje de desarrollo: No existe limitacin alguna en cuanto al lenguaje


a utilizar pero teniendo en cuenta que Kinect es un producto de Microsoft lo
recomendable sera utilizar el entorno Visual Studio.

4.4

Anlisis de la Tecnologa

A fin de evaluar qu tecnologa ofrece mayores probabilidades de xito en el desarrollo


de una solucin para el tratamiento de la Disglosia, en esta seccin se analizan tanto
Face Tracking SDK Kinect como Visage SDK FaceTrack utilizando las caractersticas
que aparecen en la Tabla 4-9.
Es importante matizar que se trata de buscar una solucin que el nio pueda utilizar
en el entorno familiar, sin necesidad de la presencia de un logopeda, aunque ste si
podra supervisar a priori y a posteriori los ejercicios. Tal y como se muestra en dicha
caracterizacin, la tecnologa a utilizar debe presentar como principal objetivo
conseguir la motivacin del nio y no centrarse en aspectos tcnicos como los
visualizadores del habla (aquellos que muestran grficas de las voces difciles de
comprender por un nio). Para ello la tecnologa debe apoyarse en juegos y en
ejercicios dirigidos al pblico infantil que se podran definir especficamente para esta
solucin, de manera que la correcta ejecucin de los ejercicios articulatorios y praxias
de movilidad orofacial tengan como resultado la consecucin de los objetivos de los
juegos. Algunos ejemplos de este tipo de juegos podran ser mover y dirigir un baln
por un circuito, o un esquiador por una pista de esqu, o un patinador, etc con los
movimientos de los mofletes, labios, etc. El movimiento provocado en estos objetos en
pantalla, suponen un feedback sobre la correcta ejecucin de los ejercicios ms
atractivo para un nio que mostrarle un avatar que reproduzca lo que el nio ha
realizado, a modo de espejo.

54 Trabajo de Investigacin
Tabla 4-9 Caracterizacin de la tecnologa

Caracterstica

Descripcin
El

Seguimiento del estndar CANDIDE-3

cumplimiento

CANDIDE-3
resultados

en

del

estndar

garantiza

mejores

el

desarrollo

de

la

solucin.
La precisin de la tecnologa para
Calidad en la monitorizacin facial

capturar ms fielmente la realidad


ofrece mayores posibilidades en la
monitorizacin facial.
La

solucin

tecnolgica

las

praxias

debe

Resultados permiten la monitorizacin de

monitorizar

para

la

labios, mejillas, boca, lengua y mandbula

movilidad orofacial de labios, mejillas,


boca, lengua y mandbula.
Disponer

de

reconocimiento

un

sistema

de

voz

de

integrado

facilita los posibles desarrollos, ya que


Sistemas de reconocimiento de voz

sta

caracterstica

es

fundamental

para los ejercicios articulatorios de


fonemas y palabras apropiados para el
tratamiento de la disglosia.
Disponer de un entorno de desarrollo
de
Entorno desarrollo de juegos integrado

juegos

integrado

facilita

los

posibles desarrollos, ya que los juegos


forman

parte

fundamental

de

la

solucin como elemento motivador.


Disponer de un entorno de desarrollo
Entorno desarrollo nico

nico para la programacin de las


funcionalidades

de

monitorizacin

facial, reconocimiento de voz y juegos.


Requerimientos Hardware
SSOO soportados
Precio Hardware
Documentacin, Soporte y Comunidad de
desarrolladores

Requisitos hardware del equipo en el


que se ejecutara la solucin.
Sistemas operativos soportados por la
solucin desarrollada.
Precio del hardware del equipo en el
que se ejecutara la solucin.
Recursos disponibles relacionados con
la

tecnologa

en

cuento

documentacin, soporte y comunidad

4.4. Anlisis de la Tecnologa 55

de desarrolladores.
Dispositivos que soportara la solucin

Dispositivos soportados

desarrollada.

Previsin de futuras versiones y avances en


la tecnologa

Lanzamientos

previstos

versiones

la

de

de

tecnologa

nuevas
y

las

mejoras contempladas.

En la Tabla 4-10 se recoge de forma resumida las caractersticas principales de las


dos tecnologas analizadas.
Tabla 4-10 Caractersticas de las tecnologas analizadas

Caracterstica

Face Tracking SDK Kinect

Visage SDK FaceTrack

CANDIDE-3

Si

Si

Cmara RGB
Sensor de profundidad en
Calidad

en

la

monitorizacin

milmetros.
Al tener datos en 3D se
obtienen hasta 121 Puntos

facial

Caracterstica,

Cmara RGB

superando

as los 113 del estndar


CANDIDE-3.
Los Puntos Caracterstica
(FPs) obtenidos contemplan
las

zonas

de

labios,

mejillas, boca y mandbula.


No se contempla la lengua.
Resultados

Los

AUs

(Action

permiten

la

Animation Units) obtenidos

monitorizacin

de

no contemplan las acciones

Igual que Face Tracking SDK

mejillas,

o animaciones propias de

Kinect

labios,
boca,

lengua

mandbula

las praxias de movilidad


orofacial contempladas, por
lo que en base a los FPs o
vrtices de la cara recogidos
se deben crear nuevas AUs
que

den

respuesta a

la

monitorizacin apropiada.
Sistema

de

Dispone

cuatro

No dispone. Se podran integrar

reconocimiento

de

micrfonos direccionales. Al

otros sistemas externos aunque

ser

ello dificultara la programacin.

voz

de

direccional

permite

56 Trabajo de Investigacin

discriminar el origen del


sonido, anulando posibles
ruidos e interferencias.
Integracin con las API de
Microsoft

Speech

soportan

los

(que
ltimos

algoritmos acsticos) lo que


permite

implementar

un

motor de reconocimiento de
voz y acceder a los datos de
voz sin procesar.
Mejor calidad de sonido que
un micrfono nico y ms
cmodo de usar que un
micrfono en la cabeza.
Integracin con XNA Game
Entorno

Desarrollo

de Juegos Integrado

Studio

(entorno

de

No dispone. Se podran integrar

desarrollo de juegos para

otros sistemas externos aunque

Microsoft

ello dificultara la programacin.

Windows,

Xbox

360, y Windows Phone).


Entorno

desarrollo

Visual Studio 2010 o 2012

No dispone.

Procesador Dual-core 2.66-

No muy exigente. Se ha probado

Requerimientos

GHz o superior, USB 2.0

con Intel Core Duo T7500 2.20

Hardware

bus, 2 GB RAM, Sensor

GHz con captura de video en

Kinect for Windows

paralelo

nico

SSOO soportados
Precio Hardware
Documentacin
Soporte

Sensor Kinect for Windows:


193
Amplia,

pblica

de

calidad
Excelente
Dispone

Foros y Comunidad

Windows, iOS, Android, Mac OS

Windows 7 o Windows 8

Cmara RGB: 40
Detallada con ejemplos prcticos.
No

de

foros

comunidad

y
de

No

desarrolladores propio.
Dispositivos
soportados
Previsin de futuras

PC, Tablets, Mviles


Anunciado

para

2014

PC, Tablets, Mviles


el

No hay prximos lanzamientos

4.4. Anlisis de la Tecnologa 57

versiones y avances

lanzamiento de Kinect 2 for

en la tecnologa

Windows con importantes

anunciados.

avances en reconocimiento
gestual y auditivo.
Comparando las caractersticas principales de ambas tecnologas, claramente la que
mejor se adapta a las necesidades tecnolgicas de este dominio es Face Tracking SDK
for Kinect for Windows, ya que aunque ambas siguen el estndar Candide-3 y la
tecnologa Visage SDK FaceTrack requiere de un hardware ms barato y permite su
implantacin en ms sistemas operativos, la primera de ellas gana claramente en los
siguientes aspectos que se consideran de vital importancia:

El sensor de profundidad permite acceder a los datos de profundidad en


milmetros lo que permite obtener una realidad muy precisa del entorno. El
sensor de profundidad de Kinect proporciona una nueva percepcin del mundo
real, la profundidad o tercera dimensin. Esto es especialmente importante
para las praxias orofaciales ya que aunque ambas tecnologas recogen los
Puntos Caracterstica de Candide-3, los datos de profundidad dan mucha ms
versatilidad para la monitorizacin de estos ejercicios. Tanto es as que al
obtener datos en 3D se consigue hacer seguimiento hasta 121 FPs de la cabeza
en lugar de los 113 recogidos en CANDIDE-3.

Los resultados de ambas tecnologas permiten la monitorizacin de labios,


mejillas, boca y mandbula, no recogiendo datos de la lengua. En ambos casos
los AUs (Action o Animation Units) obtenidos no contemplan las acciones o
animaciones propias de las praxias de movilidad orofacial contempladas, por lo
que en base a los FPs o vrtices de la cara recogidos se deben crear nuevas
AUs que den respuesta a la monitorizacin apropiada. Por todo ello, esta
caracterstica no es un factor determinante.

El sistema de reconocimiento de voz es claramente superior y se considera


fundamental para la terapia miofuncional, sin necesidad de usar otro software
a integrar lo que complicara el desarrollo y rendimiento de la aplicacin.

Permite la integracin con un entorno de desarrollo de juegos, concretamente


con XNA Game Studio (entorno de desarrollo de juegos para Microsoft
Windows,

Xbox

360,

Windows

Phone).

Esta

es

una

caracterstica

fundamental al facilitar el desarrollo de la solucin buscada.

Dispone de un entorno de desarrollo nico (Visual Studio) que integra todas


las funcionalidades (XNA Game Studio, Face Tracking SDK Kinect, Microsoft
Speech).

Los requerimientos hardware son poco exigentes en ambas tecnologas por lo


que no es un factor determinante.

58 Trabajo de Investigacin

La documentacin, soporte, foros y comunidad de desarrolladores son muy


amplios y en constante evolucin. Microsoft ha hecho una apuesta clara por
esta tecnologa y el apoyo a nuevas aplicaciones es total.

Los dispositivos soportados en ambas tecnologa son los mismos. Ya existen


aplicaciones con Tablets y Kinect for Windows.

El lanzamiento anunciado por Microsoft para 2014 de Kinect 2 for Windows


con importantes avances en reconocimiento gestual y auditivo abren nuevas
posibilidades y mejoras en la calidad de las aplicaciones a desarrollar.

4.5

Conclusiones

La realizacin de este trabajo final de mster ha permitido conocer la importancia de


la comunicacin en el desarrollo infantil, as como las limitaciones que originan los
trastornos del habla y del lenguaje, recopilando los diferentes tipos de trastornos en
estos mbitos, as como las recomendaciones para un seguimiento peridico del
desarrollo del lenguaje en nios, y del proceso de evaluacin a seguir en el caso de
detectar un nio con una posible alteracin del habla o del lenguaje.
Se han conocido tambin aspectos relacionados con las tcnicas empleadas en el
tratamiento de estos trastornos, y la importancia cada vez mayor, segn terapeutas y
logopedas, de la terapia miofuncional para corregir trastornos del habla originados por
trastornos orofaciales.
Se ha aprendido tambin en qu consiste la disglosia, alteracin de los rganos fonoarticulatorios, que causa trastorno del habla y lenguaje, as como las diferentes
tipologas y tratamientos a aplicar

para cada una de ellas.

Los ejercicios

recomendados en todos los tratamientos y que mayor importancia tienen para los
logopedas son dos:

ejercicios articulatorios de fonemas y palabras.

praxias para la movilidad orofacial (labios, mejillas, boca, lengua y mandbula).

Tambin se ha hecho un repaso por los recursos tecnolgicos existentes para la


intervencin en trastornos del habla y la voz, centrndose todos ellos en los ejercicios
articulatorios, siendo de especial inters los visualizadores del habla que incorporan
sistemas de reconocimiento de voz. Sin embargo, ninguno de ellos aporta algn tipo de
solucin o funcionalidad en el mbito de la movilidad orofacial.
Por lo tanto, se hace patente la necesidad que ha de ser satisfecha por la tecnologa
para realizar la monitorizacin facial orientada a las praxias de movilidad orofacial. Si
adems sta se puede completar con visualizadores del habla y sistemas de
reconocimiento de voz, se obtendra una solucin integral.
Adems, se han conocido dos estndares en el mbito de la monitorizacin facial
(MPEG-4 FBA y CANDIDE-3), as como las tecnologas identificadas que podran dar
soporte a la solucin buscada (Face Tracking SDK for Kinect for Windows y Visage SDK
FaceTrack). Una vez comparadas las caractersticas ms importantes de ambas

4.5. Conclusiones 59

tecnologas, la que mejor se adapta a las necesidades tecnolgicas de este dominio es


Face Tracking SDK for Kinect for Windows, debido fundamentalmente a que el sensor
de profundidad que incorpora Kinect permite una mayor calidad en la monitorizacin
facial. Adems, esta alternativa dispone de un entorno de desarrollo nico que permite
la integracin sencilla de las funcionalidades bsicas de la solucin buscada
(monitorizacin facial, reconocimiento de voz y desarrollo de juegos), as como una
amplia documentacin, soporte, foros y comunidad de desarrolladores y en constante
evolucin, ya que Microsoft ha hecho una apuesta clara por esta tecnologa. Adems,
el apoyo por parte de Microsoft para el desarrollo de nuevas aplicaciones es total,
tanto es as que ya ha anunciado el lanzamiento para 2014 de Kinect 2 for Windows
con importantes avances en reconocimiento gestual y auditivo que abren nuevas
posibilidades y mejoras en la calidad de las aplicaciones a desarrollar.
4.5.1 Aplicacin de los conocimientos adquiridos
Las asignaturas cursadas durante el Mster han tenido aplicacin directa en el
desarrollo de este trabajo de mster, especialmente tres de ellas:
1. Generacin de Documentos Cientficos en Informtica: ha suministrado las bases
necesarias para la iniciacin a la actividad investigadora de este trabajo
adquiriendo las competencias necesarias en la bsqueda de informacin,
capacidad crtica para revisar trabajos as como para organizar la escritura de
trabajos

artculos.

Todas

estas

competencias

han

sido

empleadas

constantemente a lo largo de la elaboracin del presente trabajo.


2. Tecnologa Software Orientada a Objetos: describe las tendencias actuales en el
desarrollo de interfaces de usuario, as como una metodologa basada en modelos
para el desarrollo de GUIs. Tambin se define el concepto de modelo desde la
perspectiva de orientacin a objetos y de la arquitectura software y su aplicacin a
diferentes tecnologas como MDA que se puede aplicar al desarrollo de interfaces.
Estas competencias tendrn una aplicacin directa en el desarrollo de la tesis
doctoral que se propone en el siguiente captulo.
3. Calidad en Interfaces de Usuario: Esta asignatura ha permitido aplicar al trabajo
los conceptos ms importantes a la hora de desarrollar interfaces de usuario de
calidad, sobre todo teniendo en cuenta los nuevos paradigmas de interaccin
como entornos colaborativos, interfaces 3D, realidad virtual. Tambin ha supuesto
una base de conocimientos que se ha utilizado en este trabajo, fundamentalmente
lo relativo a interfaces 3D.

Captulo 5
5 Lneas futuras de investigacin
5.1

Introduccin

La disglosia es una alteracin de los rganos fono-articulatorios, que causa trastorno


del habla y lenguaje, cuyo tratamiento segn los expertos requiere de terapia
miofuncional, incluyendo ejercicios articulatorios de fonemas y palabras as como
praxias para la movilidad orofacial (labios, mejillas, boca, lengua y mandbula).
La

tecnologa

podra

aportar

una

solucin

para

dicha

terapia

al

soportar

funcionalidades de monitorizacin facial as como sistemas de reconocimiento de voz.


En este sentido, la presente propuesta de tesis doctoral pretende seguir haciendo
contribuciones en esa lnea de investigacin y para ello se marca el objetivo de mejorar
los ejercicios de terapia miofuncional en disglosia mediante un entorno asistido por
computador.
5.2

Dominio del problema

Uno de los inconvenientes ms importantes que encuentran los logopedas para la


realizacin de los ejercicios de la terapia miofuncional por parte de los nios con
disglosia, es que stos al tener que realizarlos en casa pierden muy rpidamente la
motivacin al ser, en general, ejercicios repetitivos y aburridos para ellos. Por ello se
busca la implicacin de los padres, que no siempre es posible, as como inventar
diferentes juegos para que les resulten ms atractivos.
Todos sabemos de la importancia que hoy en da tienen las tecnologas para los nios,
han nacido con ellas y tienen tanto facilidad para su uso como una gran motivacin
61

62 Lneas futuras de investigacin

por utilizarlas. Esto supone claramente una oportunidad para facilitar los ejercicios de
terapia miofuncional para nios con disglosia ya que realizaran las praxias en un
entorno asistido por computador que es mucho ms atractivo para ellos, mejorando
por tanto el tratamiento de los trastornos del habla y del lenguaje.
De esta manera, el dominio del problema sera claramente buscar una solucin para
que el nio pueda utilizar en el entorno familiar, sin necesidad de la presencia de un
logopeda, aunque ste si podra supervisar a priori y a posteriori los ejercicios.
Por lo tanto, la tecnologa debe buscar la motivacin del nio en lugar de los aspectos
tcnicos para los profesionales, apoyndose en juegos y ejercicios dirigidos al pblico
infantil que se podran definir especficamente para esta solucin. As, que la correcta
ejecucin de los ejercicios articulatorios y praxias de movilidad orofacial tendran
como resultado la consecucin de los objetivos de los juegos.
5.3

Propuesta de tesis

La ejecucin de este trabajo final de mster ha permitido detectar la necesidad de una


solucin tecnolgica que aborde de una manera integral el tratamiento de la disglosia
mediante praxias de terapia miofuncional y que aproveche las capacidades de Face
Tracking SDK for Kinect for Windows, por lo que claramente esto da lugar a una
propuesta de tesis centrada en los siguientes aspectos:

Definicin de ejercicios de la terapia miofuncional que sean apropiados para el


tratamiento de las diferentes tipologas de disglosias en un entorno asistido por
computador teniendo en cuenta tanto las posibles limitaciones que ste puede
tener como las facilidades que pueda ofrecer.

Definicin de tcnicas a aplicar para la monitorizacin facial y reconocimiento de


fonemas y palabras que den respuesta a las necesidades y requisitos del sistema
asistido por computador para el tratamiento miofuncional de la disglosia.

Diseo de de posibles juegos que permitan a los nios interactuar con el sistema
de manera intuitiva, cmoda y motivadora, para poner en prctica ejercicios de la
terapia miofuncional.

Identificacin y aplicacin de tcnicas de minera de datos para evaluar la


evolucin de los nios atendiendo a su patologa y resultados obtenidos de manera
que permita aprender de esta manera qu ejercicios son los que mejores
resultados han ofrecido en cada caso.

Identificacin de alternativas y diseo de una solucin que permita ofrecer al


logopeda facilidades tanto para el seguimiento del avance de los nios (tele-terapia
miofuncional) como para el desarrollo de ejercicios adaptados a su nivel de avance.

5.4

Planificacin

Para la realizacin de esta tesis se plantea la aplicacin de la metodologa


Investigacin-Accin de Padak & Padak [38]. Para su correcta aplicacin se han

5.4. Planificacin 63

identificado los cuatros tipos de roles que intervienen y que se describen a


continuacin (Figura 5-1):

El equipo investigador que lleva a cabo el proceso de investigacin. Este rol va a ser
llevado a cabo por el doctorando en el contexto de la UCLM.

El objeto bajo investigacin, es decir, el problema que debe ser resuelto. En este
caso, el objeto de investigacin es el desarrollo de un sistema para el tratamiento
miofuncional de la disglosia.

El grupo crtico de referencia, el cual recibe los resultados de la investigacin y


participan en el proceso de investigacin (aunque menos activamente que el
investigador). Este rol va a ser llevado a cabo por una empresa del sector TIC a fin
de validar los resultados aplicables de la investigacin.

El beneficiario de la investigacin es quien espera explotar los resultados de la


investigacin aunque no tome parte en el proceso. En este caso, este papel es
llevado a cabo por logopedas y nios con disglosia.

Resultados de
Aplicacin

Nios+ logopedas: beneficiarios

Resultados de
Investigacin

grupo crtico

Resultados
Refinados

Propuestas

UCLM: Investigadores

Figura 5-1: Actores en el proyecto de tesis

En esta tesis doctoral los diferentes actores detectados participaran en el desarrollo de


las siguientes actividades, cuya distribucin temporal se describe en la Figura 5-2:

Estado del arte. se identificarn las cuestiones de investigacin relativas a


monitorizacin facial, tcnicas de reconocimiento de voz, tcnicas de desarrollo de
juegos, etc. Ser est una actividad que se realice de forma reiterada a lo largo de
toda la tesis doctoral.

Caracterizacin de las terapias para el tratamiento miofuncional de la disglosia.


Elaboracin de una propuesta de ejercicios de la terapia miofuncional que sean
apropiados para el tratamiento de las diferentes tipologas de disglosias en un
entorno asistido por computador teniendo en cuenta las posibles limitaciones que
ste puede tener.

Identificacin de tcnicas de monitorizacin facial y reconocimiento de voz. Se trata


de identificar las tcnicas a aplicar para la monitorizacin facial y reconocimiento
de fonemas y palabras que den respuesta a las necesidades y requisitos del

64 Lneas futuras de investigacin

sistema de asistencia por computador para el tratamiento miofuncional de la


disglosia. En esta tesis doctoral realizaremos aportaciones en este mbito.

Identificacin de tcnicas de desarrollo de juegos. Se trata de definir el


funcionamiento de posibles juegos que permitan a los nios interactuar con el
sistema de manera intuitiva, cmoda y motivadora, mediante ejercicios de la
terapia miofuncional.

Soporte. A lo largo de la presente tesis doctoral, se realizarn a su vez diferentes


herramientas que ayuden a poner en prctica cada una de las aportaciones antes
mencionadas.

Validacin. A fin de determinar la validez de las diferentes propuestas planteadas,


se llevarn a cabo diferentes estudios empricos contando con la participacin de
tanto logopedas como de nios que permitan validar las diferentes propuestas
realizadas.

Difusin. A lo largo de todo el proceso de realizacin de la presente tesis doctoral,


se realizarn diferentes publicaciones que permitan obtener el feedback necesario
tanto de foros nacionales como internacionales. Adems, tambin como parte de
dicho proceso de difusin se realizar la escritura del documento de tesis.
Ao 1

Ao 2

Ao 3

Ao 4

Estado del arte


Ingeniera de
requisitos en
sistemas tto.
disglosia
Caracterizacin
de las terapias
para
el
tratamiento
miofuncional de la
disglosia
Identificacin de
tcnicas de
desarrollo de
juegos
Soporte
Validacin
Difusin

Figura 5-2: Distribucin temporal de las actividades

Estas actividades se llevarn a cabo de forma iterativa, siguiendo el ciclo que


recomiendan Padak & Padak [38] de planificar actuar observar - reflexionar,
permitiendo as dar soluciones ms refinadas a lo largo de la realizacin de la presente
tesis doctoral.

5.5. Conclusiones 65

5.5

Conclusiones

5.5.1 Adecuacin de la lnea de investigacin


El Mster en Tecnologas Informticas Avanzadas tiene como principales objetivos, por
un lado la especializacin de estudiantes en tecnologas informticas avanzadas, y,
por otro lado la formacin de personal investigador en el marco de las nuevas
tecnologas informticas.
El trabajo final de mster desarrollado analiza las posibles soluciones tecnolgicas
avanzadas que dan respuesta a las necesidades tecnolgicas del tratamiento de la
disglosia. Esto ha dado como resultado la exploracin y anlisis de estndares y
tecnologas de monitorizacin facial, as como de nuevos sensores de interaccin con
el usuario como Kinect.
Por todo ello, y por lo novedoso de las tecnologas analizadas, se puede afirmar que la
lnea de investigacin tiene una apropiada adecuacin al Mster ya que se han
cumplido sus dos objetivos principales: especializacin en tecnologas informticas
avanzadas y formacin en el marco de las nuevas tecnologas informticas.
5.5.2 Calidad del trabajo y de la lnea de investigacin
Los resultados de la lnea de investigacin son relevantes ya que aportan una solucin
tecnolgica al tratamiento de la disglosia infantil. Este tratamiento no dispone apenas
de herramientas tecnolgicas en las que apoyarse y en este trabajo se propone una
solucin que, como se ha analizado, da respuesta a las necesidades tecnolgicas as
como aporta un gran valor aadido al suministrar un elemento motivador a los nios
para su ms pronta recuperacin. Esto justifica la calidad de la lnea y del trabajo de
investigacin al definir exactamente y de manera justificada las tecnologas que mejor
aplican a la lnea de investigacin.

6 Bibliografa

[1]

Heidi M. Feldman. Evaluation and Management of Language and Speech


Disorders in Preschool Children. Pediatrics in Review 2005;26;131

[2]

Heidrun Schrter-Morasch, Wolfram Ziegler. Rehabilitation of impaired speech


function (dysarthria, dysglossia). GMS Current Topics in Otorhinolaryngology Head and Neck Surgery 2005; 4; Doc 15.

[3]

American Speech-Language-Hearing Association.


http://asha.org/public/speech/development/default.htm (lt. acceso: 01/09/2013)

[4]

Lilian Bolte, Pamela Rojas. Trastornos del habla y del lenguaje infantil.
http://medicinafamiliar.uc.cl/html/articulos/123.html (lt. acceso: 01/09/2013)

[5]

Alfonso Garca. Psicopatologa del Lenguaje. Tema 4: Disglosias. Fuente para


descargar: http://picasaweb.google.com/adeaudicionyldelenguaje/Disglosias
(lt. acceso: 01/09/2013)

[6]

Alfonso Garca. Tratamiento de la Disglosia. Fuente para descargar:


http://picasaweb.google.com/adeaudicionyldelenguaje/Disglosias (lt. acceso:
01/09/2013)

[7]

Grupo de Trabajo Logopedia Escolar de Asturias. Disglosias.


http://web.educastur.princast.es/proyectos/lea/index.php?page=disglosias (lt.
acceso: 01/09/2013)

[8]

Grupo de Trabajo Logopedia Escolar de Asturias. Protocolo de Evaluacin de


Disglosias.
http://web.educastur.princast.es/proyectos/lea/index.php?page=material-deevaluacion-3 (lt. acceso: 01/09/2013)

[9]

Grupo de Trabajo Logopedia Escolar de Asturias. Programacin de Disglosias.


http://web.educastur.princast.es/proyectos/lea/index.php?page=modelos-deprogramacion-3 (lt. acceso: 01/09/2013)

[10] Grupo de Trabajo Logopedia Escolar de Asturias. Ejercicios para la regin


orofacial.
http://web.educastur.princast.es/proyectos/lea/index.php?page=ejercicios-3
(lt. acceso: 01/09/2013)

[11] AFICAL (Asociacin Fisurados Palatinos). Terapia Funcional.


http://www.aficaval.com/documentos/tmf.pdf (lt. acceso: 01/09/2013)
[12] Consuelo Belloch, Unidad de Tecnologa Educativa (UTE) de la Universidad
Politcnica de Valencia. Recursos Tecnolgicos para la intervencin en trastornos
del habla y la voz. http://www.uv.es/bellochc/logopedia/NRTLogo5.wiki (lt.
acceso: 01/09/2013)

67

68 Bibliografa

[13] American Academy of Pediatrics


http://www.aap.org (lt. acceso: 01/09/2013)
[14] Centers for Disease Control and Prevention
http://www.cdc.gov (lt. acceso: 01/09/2013)
[15] M.Castells i Batll. Terapia Miofuncional y Logopedia. Rev. Logop., Fon., Audiol.,
vol XII, n 2 (85-92), 1992
[16] Centro Nacional de Informacin y Comunicacin Educativa del Ministerio de
Educacin y Ciencia. Los sonidos del habla.
http://ntic.educacion.es/w3/eos/MaterialesEducativos/mem2001/sonidos/ (lt.
acceso: 01/09/2013)

[17]

Universidad de Iowa. Phonetics.


http://www.uiowa.edu/~acadtech/phonetics (lt. acceso: 01/09/2013)

[18] Galiana Sanchs, J., Gonzlez Rus, G. y Sauca i Balart, A. (2004). Metavox 2.0.
En Tecnologa, Educacin y Diversidad: retos y realidades de la inclusin digital.
Reflexiones sobre la brecha digital y la educacin (Actas del Congreso
Internacional TECNONEET2004). (Comp.) (pp. 407-412). Murcia: Consejera de
Educacin y Cultura.
[19]

Jordi Lagares. Xarxa Telemtica Educativa de Catalunya. Proyecto FRESSA.


http://www.xtec.cat/~jlagares/f2kesp.htm (lt. acceso: 01/09/2013)

[20]

Proyecto COMUNICA.
http://www.vocaliza.es (lt. acceso: 01/09/2013)

[21]

Visage Technologies. MPEG-4 Face and Body Animation, an overview.


http://www.visagetechnologies.com/uploads/2012/08/MPEG4FBAOverview.pdf (lt. acceso: 01/09/2013)

[22]

Igor S. Pandzic, R. Forchheimer. MPEG-4 Facial Animation The standard,


implementations, applications. Editors John Wiley & Sons Ltd.

[23]

ISO/IEC 14496 MPEG-4 International Standard, Moving Picture Experts


Group.
http://www.cselt.it/mpeg (lt. acceso: 01/09/2013)

[24]

C.H. Hjortsj. Mnniskans ansikte och det mimiska sprakt (Mans face and the
mimic language). Studentlitertur, Lund, Sweden, 1969.

[25]

P. Ekman, W. V. Friesen. Facial Action Coding System. Consulting Psychologist


Press, 1977.

[26]

M. Rydfalk. CANDIDE, a parameterized face. Report N LiTH-ISY-I-866, Dept. of


Electrical Engineering, Linkping University, Sweden, 1987.

[27]

R. Forchheimer, O. Fahlander. Low bitrate coding trough animation. Proc. Picture


Coding Symposium, Davis, CA, USA, 1983.

[28]

R. Forchheimer, O. Fahlander, T. Kronander. A semantic approach to the


transmission of face images. Proc. Picture Coding Symposium, Cesson-Sevigne,
France, 1984.

Bibliografa 69

[29]

B. Welsh. Model-Based Coding of Images. PhD dissertation, British Telecom


Research Lab, 1991.

[30]

J. Ahlberg. CANDIDE-3 An updated parameterized face. Dept. of Electrical


Engineering, Linlping University.

[31]

D. Walker, S. Gugenheim, M.P. Downs, J.L. Northern. Early Language Milestone


Scale and Language Screening of Young Children. Pediatrics Vol. 83 N 2. 1989

[32]

L. Rescorla. The Language Development Survey. A Screening Tool for Delayed


Language in Toddlers. Journal of Speech and Hearing Disorders Vol.54 587-599,
1989.

[33]

A.J. Capute, F.B. Palmer, B.K. Shapiro, R.C. Wachtel, S. Schmidt, A. Ross.
Clinical Linguistic and Auditory Milestone Scale: Prediction of Cognition in Infancy.
Developmental Medicine & Child Neurology, Volume 28, Issue 6, pages 762
771, December 1986

[34]

L. Levett, J. Muir. Which three year olds need speech therapy? Uses of the LevettMuir language screening test. Health Visitor. 1983;56:454456

[35]

L.S. Bliss, D.V. Allen. Screening Kit of Language Development: a preschool


language screening instrument. J Commun Disord. 1984;17:133141

[36]

Elisa Pereira. Logopedia en Red.


http://logopediaenred.blogspot.com.es/2008_03_30_archive.html (lt. acceso:
01/09/2013)

[37]

Xavier Snchez Lpez. Rehabilitaci amb Kinect. Universitat Politcnica de


Catalunya.
http://upcommons.upc.edu/pfc/bitstream/2099.1/12896/1/PFC%20S%C3%A
1nchez%20L%C3%B3pez,%20Xavier.pdf (lt. acceso: 01/09/2013)

[38]

N. Padak and G. Padak, Guidelines for Planning Action Research Projects.


Research to Practice 1994.

[39]

Microsoft Kinect for Windows.


http://www.microsoft.com/en-us/kinectforwindows (lt. acceso: 01/09/2013)

[40]

Visage Technologies Face Tracking & Animation


http://www.visagetechnologies.com (lt. acceso: 01/09/2013)

[41]

Libfreenect
https://github.com/OpenKinect/libfreenect (lt. acceso: 01/09/2013)

[42]

OpenKinect
http://openkinect.org/wiki/Main_Page (lt. acceso: 01/09/2013)

[43]

CL NUI Platform
http://codelaboratories.com/nui (lt. acceso: 01/09/2013)

[44]

Code Laboratories
http://codelaboratories.com (lt. acceso: 01/09/2013)

[45]

PrimeSenseNITE
http://www.primesense.com/solutions/nite-middleware (lt. acceso: 01/09/2013)

70 Bibliografa

[46]

OpenCV
http://opencv.org (lt. acceso: 01/09/2013)

[47]

OpenNI
http://www.openni.org (lt. acceso: 01/09/2013)

[48]

Java Advanced Imaging


http://www.oracle.com/technetwork/java/javase/tech/jai-142803.html (lt.
acceso: 01/09/2013)

Vous aimerez peut-être aussi