Vous êtes sur la page 1sur 39

Spoken Dialogues Systems

23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 1


Tambin conocidos como:
Interactive Voice Response Systems (IVR Systems)
Spoken dialogue systems (SDS)
Sistemas de dilogo hablado (SDH)
Aplicaciones:
Preparacin de viajes (Amtrak, United Airlines)
Ruteo de llamadas telefnicas
Enseanza
Comunicacin con robots
Cualquier dispositivo con teclado o pantalla
limitados
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 2
Los sistemas de dilogo tienen como objetivo
facilitar la interaccin natural mediante el habla
entre una persona y un sistema informtico.
Pueden enmarcarse en el campo de la
comunicacin entre personas y computadoras
(HCI, Human-Computer Interaction).
Un sistema de dilogo ideal:
Reconoce el habla espontnea.
Comprende enunciados sin restricciones de
contenido.
Proporciona respuestas con sentido,
gramaticalmente bien formadas y pragmticamente
adecuadas.
Responde con voz completamente natural.
Es multimodal.

23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 3
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 4
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 5
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 6
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 7
Information-seeking, transaction-based.
La mayora de los sistemas en produccin hoy
estn diseados para acceder a BD y/o rutear
llamadas.
Otros ejemplos:
CMU: Lets Go! Info del transporte de Pittsburgh.
Google: Goog411. Directorio, Google Voice
Search.
MIT: Jupiter. Pronstico del tiempo.
Columbia: CheckItOut. Bibliotecario virtual.
Siri de Apple.
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 8
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 9
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 10
Arquitectura de un SDS
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 11
La meta del reconocedor es recoger seales
acsticas de las entradas de los usuarios y
convertirlas en secuencia de texto.

Hay diferentes tipos de variabilidad que
hacen problemtico el reconocimiento del
habla:
Viariabilidad inter-hablante.
Variabilidad intra-hablante.
Variabilidad del canal.
Ruidos de fondo.
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 12
Un SDS debe contemplar variabilidad en:
Medio ambiente
Ruido de fondo, interferencia de celulares,
etc.
Produccin del habla
Disfluencias, acento, edad, sexo, diferencias
entre comunicacin humano-humano y
humano-computadora.
Familiaridad del usuario con la tecnologa.
En SDH, los usuarios menos expertos suelen
usar palabras fuera del vocabulario o fuera del
dominio.
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 13
La arquitectura de un SDH siempre opera con
informacin parcial.
ASR output con nivel de confianza: quiero [.4]
saber[.7] el[.5] cdigo[.4] de[.5] rea[.8]
para[.5] Chicago[.7]
Desafo: manejar ese nivel de incertidumbre.
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 14
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 15
Arquitectura de un SDS
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 16
La tarea de un sistema de comprensin del
habla es analizar la salida del ASR y asignar
un significado que pueda ser utilizado por el
gestor de dilogo.
Tradicionalmente envuelve dos procesos:
Anlisis sinttico.
Anlisis semntico.
La comprensin del habla es compleja por
dos razones:
Ambiguedad del lenguaje natural.
Entradas incorrectas (Salidas del ASR)
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 17
Extraccin de significado de las oraciones.
Natural Language Understanding (NLU).
Semntica computacional.
Hay muchas maneras de representar el
significado de las oraciones.
Lgicas de primer orden, lgicas modales, etc.
Sistemas de dilogo hablado:
Dialog acts
Frame/Slot Semantics
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 18
Dialog act: Captura la accin que se pretende
realizar al formular una oracin en un dilogo.
Ejemplos:
Greeting
Statement
Yes-No Question
Wh-Question
Request
Thank

Problema: clasificacin automtica de dialog
acts.
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 19
Ejemplo de Frame:
Quiero ver los vuelos de Boston a San
Francisco para el martes a la maana.
MOSTRAR:
VUELOS:
ORIGEN:
CIUDAD:
FECHA:
HORA:
DESTINO:
CIUDAD:
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 20
Ejemplo de Frame:
Quiero ver los vuelos de Boston a San
Francisco para el martes a la maana.
MOSTRAR:
VUELOS:
ORIGEN:
CIUDAD: Boston
FECHA: Martes
HORA: maana
DESTINO:
CIUDAD: San Francisco
Cmo se completan estos frames en base
al input del usuario?
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 21
Enfoque 1: Gramticas semnticas.
SHOW show me | I want | can I see |
DEPART_TIME (after|around|before) HOUR
| morning | afternoon | evening
HOUR one|two|three|twelve (am|pm)
FLIGHTS (a) flight|flights
ORIGIN from CITY
DESTINATION to CITY
CITY Boston | San Francisco | Denver
| Washington
Ejemplo:
Show me flights from Boston to San Francisco on Tuesday morning.
SHOW FLIGHTS ORIGIN DESTINATION DEPART_DATE DEP_TIME
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 22
Sistema: Y en qu da de Mayo quiere viajar?
Cliente: Bueno, eh, voy a un congreso del 12 al
15.
Notar que el cliente no respondi la pregunta.
Significado de la oracin del cliente:
Evento=congreso
Comienzo-del-evento: 12
Fin-del-evento: 15
No dice nada sobre el vuelo!
Cmo puede el sistema inferir que el cliente
est informndole las fechas del viaje?
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 23
Implicatura: Inferencias que el hablante
espera que el oyente realice.
Principio de cooperacin
Haz tu contribucin de la manera en que es
requerida, en el momento en que es
requerida, siguiendo el objetivo o direccin de
la conversacin en que ests participando.
Acuerdo tcito entre hablante y oyente para
cooperar en la comunicacin.
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 24
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 25
Arquitectura de un SDS
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 26
El gestor de de dilogo es el componente
central de un sistema de dilogo, controla la
interaccin con el usuario y se comunica con
las bases de datos externas.

La gestin de dilogo usualmente es vista en
trminos de dos subcomponentes:

Control del Dilogo
Mdulo contextual del Dilogo
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 27
Debido a su complejidad y en orden de
seleccionar la mejor accin, diferentes
estrategias y tcnicas son implementadas en
el diseno de un gestor de dilogo.

Mtodos basados en reglas (Con algn
aprendizaje estadstico)
Modelos estocsticos.
Aprendizaje por refuerzo.
Esquemas o combinaciones.
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 28
El gestor de dilogo debe decidir la siguiente
accin a realizar de acuerdo con la
informacin proporcionada por el usuario y
con la historia de los turnos precedentes.


23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 29
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 30
Arquitectura de un SDS
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 31
Construccin de oraciones a partir de
conceptos.
Eleccin de estructura sintctica y palabras.
Natural Language Generation (NLG)
Output de NLG Input de TTS.
Sistemas de dilogo hablado:
Generacin basada en templates:
A qu hora quiere partir de CIUDAD-ORIG?
Quiere volver a CIUDAD-ORIG desde CIUDAD-DEST?
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 32
Por favor diga la fecha.
Por favor diga la hora de comienzo.
Por favor diga la duracin
Por favor diga a nombre de quin es la reserva...
Marcadores de discurso y pronombres
(coherencia):
Primero, dgame la fecha.
Lo siguiente que necesitara saber es la hora de
comienzo.
Gracias. <pausa> Ahora, cunto va a durar la
reunin?
Por ltimo, a nombre de quin hago la reserva?
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 33
Prompts cada vez ms cortos:
Sistema: Cul es la primera compaa que desea
agregar a su lista?
Usuario: Cisco
Sistema: Cul es el nombre de la siguiente
compaa? (O bien, puede decir Termin.)
Usuario: IBM
Sistema: La siguiente compaa? O diga,
Termin.
Usuario: Intel
Sistema: La siguiente?
Usuario: America Online.
Sistema: La siguiente?
Usuario:
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 34
Sistema: hay 3 vuelos sin escalas para ese
da.
El sistema dir esto luego de encontrar 3
vuelos en su base de datos. Podra haber
ms...
Pero el cliente va a interpretar que hay
solamente 3 vuelos.
Tener en cuenta Implicaturas
Conversacionales al disear el mdulo de
generacin de un sistema.
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 35
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 36
Arquitectura de un SDS
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 37
La salida de voz implica la traduccin del
mensaje construido por el generador de
respuesta en forma oral. Sntesis de texto a
voz puede ser visto como un proceso de dos
etapas que incluye:

1. Anlisis de texto.
2. Generacin del habla.
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 38
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 39

Vous aimerez peut-être aussi