Program A

Departamento de Seales, Sistemas y Radiocomunicaciones Asignatura: Laboratorio de Tratamiento Digital de la Voz
Curso acadmico: OBJETIVOS El Laboratorio de Tratamiento Digital de la Voz tiene como objetivo genrico servir de complemento prctico a los conocimientos tericos que se imparten en la asignatura Tratamiento Digital de la Voz. Para cumplir el objetivo genrico anterior, las prcticas que se realizan se agrupan, en cuanto a su contenido, en dos conjuntos diferenciados. Por un lado, un conjunto de prcticas que hacen referencia a: Conocimientos relativos a caractersticas elementales de la seal de voz. Incluyendo conversin A/D y D/A de voz; visualizacin e identificacin de segmentos de voz en el dominio del tiempo, tanto en intervalos largos como cortos; anlisis de la importancia de la informacin prosdica en sntesis de voz; representacin del espectro de la seal de voz y caracterizacin en el dominio de la frecuencia. Tcnicas de anlisis bsicas. Incluyendo: medidas localizadas de la voz: energa, mdulo, cruces por cero, autocorrelacin; anlisis en frecuencia; anlisis homomrfico; estimacin de la frecuencia fundamental; tcnicas bsicas de codificacin de voz; prediccin lineal; segmentacin y reconocimiento de voz.
Y, por otro lado, un conjunto de prcticas que encaminen al alumno a la aplicacin de los conocimientos y tcnicas bsicas aprendidas sobre alguna de las principales reas de aplicacin del Procesado de Voz. De este ltimo tipo de prcticas cada alumno solamente realizar una, que constituir un pequeo proyecto con el que concluir sus actividades en este laboratorio. Los mbitos de actuacin donde se centrarn preferentemente esos pequeos proyectos, corresponden a las principales reas de aplicacin consideradas en la asignatura terica: Codificacin, Sntesis y Reconocimiento del Habla y de Locutores. A pesar de lo anterior, no se desestimar cualquier otro tipo de iniciativas por parte de los alumnos, siempre y cuando cuenten con una apropiada supervisin por parte del profesor. A modo de ejemplo, podran plantearse trabajos dirigidos al desarrollo de un sistema de reconocimiento de locutores basado en GMM, al manejo de diferentes estndares de codificacin de voz (G729, G728, G723.1, RPE-LPTP, AMR,), o al uso de entornos software de reconocimiento o sntesis de voz (HTK, Microsoft Speech SDK, VoiceXML, SALT). Las actividades de este laboratorio se realizarn principalmente sobre el entorno MATLAB. Adicionalmente, el personal responsable del laboratorio proporcionar a los alumnos informacin sobre diversas herramientas de trabajo disponibles en tecnologas del habla, como son: entornos de anlisis de voz como snack para Tcl/Tk, software de implementacin de estndares de codificacin de voz, interfaces de programacin como el Speech API de Microsoft, o entornos de trabajo como HTK, herramientas de la empresa Nuance para trabajo sobre VoiceXML o software de diferentes estndares de codificacin de voz. PROGRAMA El conjunto de prcticas que integran el Laboratorio se estructura en dos niveles diferenciados: Prcticas-Problemas guiados y Proyectos. A) Prcticas-Problemas guiados: Pretenden cubrir los ejercicios prcticos asociados a los contenidos tericos bsicos en Procesado Digital de Voz. Abarcan los temas siguientes: Anlisis de forma de onda de la voz. Identificacin de unidades (sonidos). Anlisis de la importancia de la informacin prosdica. Tcnicas de anlisis en tiempo: energa, cruces por cero, autocorrelacin.
Tcnicas de anlisis en frecuencia: transformada localizada de Fourier. Estima de los Formantes de la voz y reconocimiento de voz. Segmentacin del habla. Estima de la frecuencia fundamental de la voz. Esquemas de Codificacin basados en Prediccin Lineal.
Se realizarn cuatro prcticas en las que se propondrn ejercicios elementales sobre contenidos bsicos y se pedir a los alumnos la realizacin de pequeos ejercicios de aplicacin en cada prctica. B) Proyectos: prctica final del laboratorio que tiene como objetivo que el alumno desarrolle una actividad creativa, basada en los conocimientos impartidos en la asignatura terica ya complementados en las prcticas-problemas dirigidos. En concreto, los alumnos debern realizar el planteamiento completo para abordar el diseo y simulacin de una aplicacin sencilla dentro de los mbitos Codificacin, Sntesis y Reconocimiento, pudiendo orientarse esta prctica final al conocimiento y uso de herramientas de trabajo como las anteriormente citadas snack, speech API de microsoft, VoiceXML sobre entorno Nuance, etc. LISTADO DE PRACTICAS Prcticas-Problemas Guiados 1. 2. 3. 4. Conversin A/D y D/A: anlisis y manipulacin de formas de onda de voz. Tcnicas bsicas de anlisis en el tiempo de la seal de voz. Tcnicas bsicas de anlisis en frecuencia de la seal de voz. Anlisis de esquemas simples de codificacin de voz.
Proyectos: Tema libre supervisado por los profesores de las asignaturas. Preferentemente las prcticas se realizarn por parejas. BIBLIOGRAFA BSICA Signal Processing of Speech F.J. Owens, Mc. New Electronics Guiones de Prcticas del Laboratorio de Procesado de Voz ETSIT-UPM BIBLIOGRAFIA COMPLEMENTARIA 1. HLTsurvey http://cslu.cse.ogi.edu/HLTsurvey/ Recopilacin de los principales temas de Tecnologas del Habla y enlaces a diferentes textos en INTERNET 2. Direcciones inters general de Tecnologa del Habla (referencias, herramientas de desarrollo, productos) http://directory.google.com/Top/Computers/Speech_Technology/ 3. D OShaughnessy, SpeechCommunication. Human and machine. Addisson-Wesley 1987. 4. J. Holmes and W. Holmes, Speech Synthesis and Recognition (2nd Edition), Taylor & Francis, London & New York, 2001. 5. L.R. Rabiner and R.W. Schafer, DigitalProcessing of Speech Signals, Prentice-Hall, 1978. 6. A. Quilis, Fontica Acstica de la Lengua Espaola,Ed. Gredos, 1981. 7. J.D. Markel and A.H Gray Jr., LinearPrediction of Speech, Springer-Verlag, New York, 1976. 8. Sadaoki Furui, Digital Speech Processing, Synthesis and Recognition (Second Edition, Revised and Expanded), Marcel Dekker, New York, 2001. 9. X. Huang, A. Acero and H-W Hon, Spoken Language Processing: A Guide to Theory, Algorithm, and System Development, Prentice Hall, New Jersey, 2001. 10. Joseph Picone, http://www.isip.msstate.edu/publications/courses/ece_8463/ Curso: FUNDAMENTALS OF SPEECH RECOGNITION , Dept. of Elect. and Comp. Eng., Mississippi State University. 11. Thierry Dutoit, http://tcts.fpms.ac.be/synthesis/introtts.html A Short Introduction to Text-to-Speech Synthesis, TTS research team, TCTS Lab.
Informacin de la asignatura en www: http://www.gaps.ssr.upm.es/TDV
EVALUACIN La evaluacin de las prcticas guiadas se realizar a partir de la entrega de un informe de actividades realizadas sobre cuestiones bsicas de cada prctica y su ejercicio de aplicacin. Informes que sern expuestos pblicamente por los alumnos en sesiones especiales de presentacin y discusin de actividades. La evaluacin de la prctica libre se realizar sobre la memoria realizada y la presentacin y discusin oral de resultados obtenidos.
La evaluacin final de la asignatura ser el resultado del promedio de las calificaciones de todas la prcticas realizadas. CALENDARIO PARA EL CURSO El periodo de actividades del laboratorio comenzar el jueves 18 de febrero (con una reunin de presentacin de las actividades en el laboratorio A.202-L) y finalizar el 28 de mayo, y constar de sesiones de trabajo y sesiones de discusin y exposicin de trabajos. Las sesiones de trabajo sern los martes de 18 a 20 horas. Las sesiones de discusin y exposicin de trabajos sern las siguientes: - Jueves 1 de abril para la primera y segunda prctica. - Jueves 20 de mayo para tercera prctica y cuarta. - El da de examen fijado por jefatura de estudios para la prctica final.
La realizacin de las prcticas y entrega de informes correspondientes ser: Primera Prctica: 23 y 25 de febrero, entrega de la memoria el 2 de marzo. Segunda Prctica: 2 de marzo, 9 de marzo y 16 de marzo, entrega de la memoria el 30 de marzo. Tercera Prctica: 6 de abril y 13 de abril, 20 de abril, entrega de la memoria el 27 de abril. Cuarta Prctica: 27 de abril, 4 de mayo, 11 de mayo entrega de la memoria el 18 de mayo. Prctica Libre: 18 de mayo, 25 de mayo y 1 de junio, entrega de la memoria el 3 de junio. PROFESORADO Coordinador de la Asignatura: Luis A. Hernndez Gmez (despacho C-330) Profesorado: Laboratorio A202 L Ms informacin de la asignatura en www: http://www.gaps.ssr.upm.es/TDV/indexnfr.html Luis A. Hernndez Gmez (despacho C-330) luis@gaps.ssr.upm.es

Program A

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Program A

Transféré par

Droits d'auteur :

Formats disponibles

Departamento de Seales, Sistemas y Radiocomunicaciones Asignatura: Laboratorio de Tratamiento Digital de la Voz

Informacin de la asignatura en www: http://www.gaps.ssr.upm.es/TDV

Vous aimerez peut-être aussi