23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 1
Tambin conocidos como: Interactive Voice Response Systems (IVR Systems) Spoken dialogue systems (SDS) Sistemas de dilogo hablado (SDH) Aplicaciones: Preparacin de viajes (Amtrak, United Airlines) Ruteo de llamadas telefnicas Enseanza Comunicacin con robots Cualquier dispositivo con teclado o pantalla limitados 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 2 Los sistemas de dilogo tienen como objetivo facilitar la interaccin natural mediante el habla entre una persona y un sistema informtico. Pueden enmarcarse en el campo de la comunicacin entre personas y computadoras (HCI, Human-Computer Interaction). Un sistema de dilogo ideal: Reconoce el habla espontnea. Comprende enunciados sin restricciones de contenido. Proporciona respuestas con sentido, gramaticalmente bien formadas y pragmticamente adecuadas. Responde con voz completamente natural. Es multimodal.
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 3 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 4 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 5 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 6 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 7 Information-seeking, transaction-based. La mayora de los sistemas en produccin hoy estn diseados para acceder a BD y/o rutear llamadas. Otros ejemplos: CMU: Lets Go! Info del transporte de Pittsburgh. Google: Goog411. Directorio, Google Voice Search. MIT: Jupiter. Pronstico del tiempo. Columbia: CheckItOut. Bibliotecario virtual. Siri de Apple. 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 8 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 9 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 10 Arquitectura de un SDS 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 11 La meta del reconocedor es recoger seales acsticas de las entradas de los usuarios y convertirlas en secuencia de texto.
Hay diferentes tipos de variabilidad que hacen problemtico el reconocimiento del habla: Viariabilidad inter-hablante. Variabilidad intra-hablante. Variabilidad del canal. Ruidos de fondo. 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 12 Un SDS debe contemplar variabilidad en: Medio ambiente Ruido de fondo, interferencia de celulares, etc. Produccin del habla Disfluencias, acento, edad, sexo, diferencias entre comunicacin humano-humano y humano-computadora. Familiaridad del usuario con la tecnologa. En SDH, los usuarios menos expertos suelen usar palabras fuera del vocabulario o fuera del dominio. 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 13 La arquitectura de un SDH siempre opera con informacin parcial. ASR output con nivel de confianza: quiero [.4] saber[.7] el[.5] cdigo[.4] de[.5] rea[.8] para[.5] Chicago[.7] Desafo: manejar ese nivel de incertidumbre. 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 14 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 15 Arquitectura de un SDS 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 16 La tarea de un sistema de comprensin del habla es analizar la salida del ASR y asignar un significado que pueda ser utilizado por el gestor de dilogo. Tradicionalmente envuelve dos procesos: Anlisis sinttico. Anlisis semntico. La comprensin del habla es compleja por dos razones: Ambiguedad del lenguaje natural. Entradas incorrectas (Salidas del ASR) 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 17 Extraccin de significado de las oraciones. Natural Language Understanding (NLU). Semntica computacional. Hay muchas maneras de representar el significado de las oraciones. Lgicas de primer orden, lgicas modales, etc. Sistemas de dilogo hablado: Dialog acts Frame/Slot Semantics 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 18 Dialog act: Captura la accin que se pretende realizar al formular una oracin en un dilogo. Ejemplos: Greeting Statement Yes-No Question Wh-Question Request Thank
Problema: clasificacin automtica de dialog acts. 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 19 Ejemplo de Frame: Quiero ver los vuelos de Boston a San Francisco para el martes a la maana. MOSTRAR: VUELOS: ORIGEN: CIUDAD: FECHA: HORA: DESTINO: CIUDAD: 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 20 Ejemplo de Frame: Quiero ver los vuelos de Boston a San Francisco para el martes a la maana. MOSTRAR: VUELOS: ORIGEN: CIUDAD: Boston FECHA: Martes HORA: maana DESTINO: CIUDAD: San Francisco Cmo se completan estos frames en base al input del usuario? 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 21 Enfoque 1: Gramticas semnticas. SHOW show me | I want | can I see | DEPART_TIME (after|around|before) HOUR | morning | afternoon | evening HOUR one|two|three|twelve (am|pm) FLIGHTS (a) flight|flights ORIGIN from CITY DESTINATION to CITY CITY Boston | San Francisco | Denver | Washington Ejemplo: Show me flights from Boston to San Francisco on Tuesday morning. SHOW FLIGHTS ORIGIN DESTINATION DEPART_DATE DEP_TIME 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 22 Sistema: Y en qu da de Mayo quiere viajar? Cliente: Bueno, eh, voy a un congreso del 12 al 15. Notar que el cliente no respondi la pregunta. Significado de la oracin del cliente: Evento=congreso Comienzo-del-evento: 12 Fin-del-evento: 15 No dice nada sobre el vuelo! Cmo puede el sistema inferir que el cliente est informndole las fechas del viaje? 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 23 Implicatura: Inferencias que el hablante espera que el oyente realice. Principio de cooperacin Haz tu contribucin de la manera en que es requerida, en el momento en que es requerida, siguiendo el objetivo o direccin de la conversacin en que ests participando. Acuerdo tcito entre hablante y oyente para cooperar en la comunicacin. 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 24 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 25 Arquitectura de un SDS 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 26 El gestor de de dilogo es el componente central de un sistema de dilogo, controla la interaccin con el usuario y se comunica con las bases de datos externas.
La gestin de dilogo usualmente es vista en trminos de dos subcomponentes:
Control del Dilogo Mdulo contextual del Dilogo 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 27 Debido a su complejidad y en orden de seleccionar la mejor accin, diferentes estrategias y tcnicas son implementadas en el diseno de un gestor de dilogo.
Mtodos basados en reglas (Con algn aprendizaje estadstico) Modelos estocsticos. Aprendizaje por refuerzo. Esquemas o combinaciones. 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 28 El gestor de dilogo debe decidir la siguiente accin a realizar de acuerdo con la informacin proporcionada por el usuario y con la historia de los turnos precedentes.
23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 29 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 30 Arquitectura de un SDS 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 31 Construccin de oraciones a partir de conceptos. Eleccin de estructura sintctica y palabras. Natural Language Generation (NLG) Output de NLG Input de TTS. Sistemas de dilogo hablado: Generacin basada en templates: A qu hora quiere partir de CIUDAD-ORIG? Quiere volver a CIUDAD-ORIG desde CIUDAD-DEST? 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 32 Por favor diga la fecha. Por favor diga la hora de comienzo. Por favor diga la duracin Por favor diga a nombre de quin es la reserva... Marcadores de discurso y pronombres (coherencia): Primero, dgame la fecha. Lo siguiente que necesitara saber es la hora de comienzo. Gracias. <pausa> Ahora, cunto va a durar la reunin? Por ltimo, a nombre de quin hago la reserva? 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 33 Prompts cada vez ms cortos: Sistema: Cul es la primera compaa que desea agregar a su lista? Usuario: Cisco Sistema: Cul es el nombre de la siguiente compaa? (O bien, puede decir Termin.) Usuario: IBM Sistema: La siguiente compaa? O diga, Termin. Usuario: Intel Sistema: La siguiente? Usuario: America Online. Sistema: La siguiente? Usuario: 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 34 Sistema: hay 3 vuelos sin escalas para ese da. El sistema dir esto luego de encontrar 3 vuelos en su base de datos. Podra haber ms... Pero el cliente va a interpretar que hay solamente 3 vuelos. Tener en cuenta Implicaturas Conversacionales al disear el mdulo de generacin de un sistema. 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 35 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 36 Arquitectura de un SDS 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 37 La salida de voz implica la traduccin del mensaje construido por el generador de respuesta en forma oral. Sntesis de texto a voz puede ser visto como un proceso de dos etapas que incluye:
1. Anlisis de texto. 2. Generacin del habla. 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 38 23/04/2014 UNAD Ing. Wadenson Feliz Santana, MSc. 39