Curso 2014-15
Procesado del Habla
Titulación: | Código: | Tipo: |
Grado en Ingeniería Informática | 21480 | Optativa |
Grado en Ingeniería Telemática | 21762 | Optativa |
Grado en Ingeniería en Sistemas Audiovisuales | 21610 | Obligatoria 2º curso |
Créditos ECTS: | 4 | Dedicación: | 100 horas | Trimestre: | 3º |
Departamento: | Dpto. de Tecnologías de la Información y las Comunicaciones |
Coordinador: | Emilia Gómez |
Profesorado: | Emilia Gómez, Mireia Farrús, Martí Umbert |
Idioma: | Catalán (explicaciones), inglés (material) |
Horario: | |
Campus: | Campus de la Comunicación - Poblenou |
Éste es un curso intermedio sobre procesado digital de señales sonoras, pensado para estudiantes de Ingeniería en Sistemas Audiovisuales.
La asignatura se centra en el estudio de las principales técnicas de análisis, descripción, síntesis y procesado de señales de voz.
El curso está construido sobre la base de asignaturas previas de la titulación, principalmente Ingeniería Acústica y Señales y Sistemas (segundo curso, Ingeniería en Sistemas Audiovisuales).
Competencias a trabajar en la asignatura según indica el plan de estudios del grado:
Competencias transversales | Competencias específicas |
---|---|
Instrumentales G1. Capacidad de análisis y síntesis G2. Capacidad de organización y planificación G3. Capacidad de aplicar los conocimientos para el análisis y resolución de problemas G4. Habilidad en la búsqueda y gestión de la información G5. Habilidad en la toma de decisiones. Capacidad de comunicación oral y escritaInterpersonales G8. Capacidad de trabajo en equipo Capacidad de trabajo en contextos interdisciplinares
Sistémicas G11. Capacidad de aplicar con flexibilidad y creatividad los conocimientos adquiridos y adaptarlos a nuevas situaciones G12. Capacidad de progresar en los procesos de formación y aprendizaje de manera autónoma y contínua |
Competencias Específicas de Formación Básica B4 - INF / B4 - A. Capacidad para analizar funciones de variable compleja B7 - INF / B7 - A. Conocer las transformadas de Fourier para señales analógicas y digitales y los elementos básicos de la teoría del muestreo de señales B8 - INF. Capacidad para resolver sistemas lineales e invariantes y las funciones y transformadas relacionadas B7 -T. Entender y utilizar los principios de la probabilidad B9 - A. Adquirir los conocimientos básicos de la física de la propagación del sonido y la relación con los métodos de procesado de señales de audio Competencias de tecnología específica: Sistemas Audiovisuales AU1. Capacidad de construir, explotar y gestionar servicios y aplicaciones de telecomunicaciones. AU3. Capacidad de seleccionar un sistema, componente o proceso del ámbito del sonido y la imagen para cumplir las especificaciones requeridas AU4. Adquirir conocimientos de técnicas de procesado de audio AU5. Conocimientos de técnicas de procesado de señal utilizadas en el análisis, síntesis, codificación y reconocimiento del habla. Desarrollo de aplicaciones relacionadas. AU6. Conocimientos de las técnicas de procesado de señal de audio y música. Desarrollo de aplicaciones relacionadas. AU22. Principios matemáticos y aproximaciones para la codificación de audio y música. |
La evaluación se divide en las tres actividades que constituyen la asignatura: teoría (T), seminarios (S) y prácticas de laboratorio (L) de la siguiente manera:
Algunas características | Temporalización | Recuperable | |
---|---|---|---|
Pruebas escritas |
Examen final (70% de T): el examen final evalúa toda la materia de la asignatura. Inluye preguntas asociadas a las prácticas. |
Final de trimestre |
Si |
Productos escritos |
Control de conocimientos (30% de T): control parcial de conocimientos. Incluye preguntas asociadas a las prácticas. |
Mitad de trimestre |
No |
Ejercicios de seminario (S) |
A lo largo del trimestre |
No |
|
Proves d'execució |
Prácticas de laboratorio (L): entrega de memorias de práctiques (35% de L) (de forma individual o en parejas) y una entrevista de prácticas a lo largo del trimestre (5% de L). |
A lo largo del trimestre |
No |
Requisitos mínimos:
• T: evaluación de los conocimientos. Se requiere un mínimo de 5/10 en ésta nota para aprobar la asignatura.
• L: se requiere un mínimo de 5/10 para aprobar la asignatura.
La nota final se obtiene de la siguiente manera:
Nota Final = 0,5*T + 0,4*L + 0,1*S
En esta asignatura se pretende que el estudiante desarrolle una metodología para analizar, reconocer y sintetizar señales de voz (principalmente de habla) utilizando técnicas de procesado de señal. Más concretamente se pretende que el estudiante adquiera competencias teóricas y prácticas relacionadas con:
• Fundamentos acústicos, fisiológicos y perceptuales de la voz.
• Fundamentos de análisis digital de señales de voz.
• Métodos de modelado y procesado de señales de voz.
• Uso de programas de procesado de voz.
• Implementación de algoritmos de procesado de voz.
Éstos conceptos se estructura en los siguientes Bloques de Contenido:
Bloque 1. Introducción:
• Cadena de generación/percepción del habla.
• Fundamentos acústicos del sonido.
• Aplicaciones del procesado digital del habla.
Bloque 2. Fundamentos:
• Fundamentos acústicos de la voz: mecanismos de producción, habla vs canto, clasificación de los sonidos del habla, representación fonética.
• Fundamentos perceptuales: altura, intensidad y timbre.
Bloque 3. Análisis espectral de señales de voz.
• Análisis STFT, espectrograma y multiresolución.
• Extracción de parámetros: energia, ZCR, ST - ACF, pitch.
Bloque 4. Modelos basados en la percepción.
• Modelos físicos vs espectrales vs basados en formantes.
• Fundamentos de la percepción del habla.
• Modelos espectrales.
• Transformación espectral de señales de voz.
Bloque 5. Modelos basados en la producción. Análisis Linear Predictivo (LPC).
Bloque 6. Síntesis Texto-Habla (Text-To-Speech Synthesis).
Bloque 7. Reconocimiento del habla (Automatic Speech Recognition) y del locutor (Speaker Recognition).
• Análisis cepstral.
• Modelos Ocultos de Markov.
En cada tema se plantea una sesión de teoría, un seminario y una parte de una sesión de laboratorio. En la sesión de teoría se presentan ciertos fondamentos teórico-prácticos en gran grupo. El estudiante tiene que complementar ésta actividad con una lectura de los materiales que el profesor ponga a su disposición.
Posteriormente se realizará un seminario centrado en la resolución de ejercicios o problemas para poner en prácticas los conceptos teóricos estudiados.El objetivo es que el estudiante consolide los fundamentos para que posteriormente pueda resolver problemas de mayor complejidad. Ésta actividad se realiza en grupos pequeños con participación activa.
El sigüiente paso es la sesión de prácticas, donde se proponen problemas prácticos que requieren un diseño previo y que integra diferentes conceptos y técnicas. Esta actividad se puede realizar por parejas y continuar fuera del aula.
Sesiones presenciales | Horas de estudio | ||||
---|---|---|---|---|---|
Temas | Grupo grande (2h) | Grupo pequeño (1h) | Grupo mediano (2h) | ||
1. Introducción 2. Fundamentos |
2 |
1 |
|
5 |
|
3. Anàlisis espectral | 1 | 1 | 1 | 8 | |
4. Modelos perceptuales | 1 | 1 | 7 | ||
5. Modelos producción | 1 | 1 | 1 | 7 | |
6. Text-To-Speech Synthesis | 1 | 1 | 7 (control) | ||
7.Análisis cepstral | 1 | 1 | 1 | 7 | |
8. Reconocimiento | 2 | 2 | 1 | 8 | |
Recapitulación | 1 | 8 | |||
Preparación de examen final |
|
|
|
7 |
|
Total: |
18 |
8 |
10 |
64 |
Total: 100 |
Teoría: 18 horas (9 sesiones de 2 horas).
• Tema 1: Introducción.
• Tema 2: Producción y clasificación de sonidos del habla.
• Tema 3: Análisis espectral.
• Tema 4: Modelos perceptuales.
• Tema 5: Modelos basados en la producción (LPC).
• Tema 6: Síntesis del habla: Text-To-Speech.
• Tema 7: Análisis cepstral.
• Tema 8: Reconocimiento del habla
• Teoria 9: Reconocimiento de locutor
Seminarios: 8 sesiones de 1 hora.
• Seminario 1: Acústica de la voz.
• Seminario 2: Análisis espectral.
• Seminario 3: LPC .
• Seminario 4: Control.
• Seminario 5: Cepstrum.
• Seminario 6: Reconocimiento del habla.
• Seminario 7: Transformaciones de voz.
• Seminario 8: Revisión de conocimientos.
Laboratorios: 5 sesiones de 2 horas.
• Práctica 1: Análisis espectral.
• Práctica 2: Modelado espectral.
• Práctica 3: Análisis y síntesis.
• Práctica 4: Cepstrum.
• Práctica 5: Reconocimiento del habla.
Bibliografia básica
• Quatieri, T. F. 2001. Discrete - Time Speech Signal Processing: Principles and Practice. Prentice Hall.
• Rabiner, L. R. and R. W. Schafer. 2007 . Introduction to Digital Speech Processing. Foundations and Trends in Signals Processing, Vol. 1, Nos. 1-2, 2007
Bibliografía complementária
• Rabiner, L. R. and Schafer, R. W. 1978. Digital Signal Processing of Speech Signals. Prentice Hall.
• O'Shaughnessy, D. 1999. Speech communications: human and machine. Wiley, John & Sons.
• Rabiner, L. R. and B. H. Juang. 1993. Fundamentals of Speech Recognition. Prentice Hall.
• Park, Sung-won. Linear Predictive Speech Processing.
• Park, Sung-won. Discrete Wavelet Transform.
• Spanias, Andreas. 1994. "Speech Coding: A Tutorial Review". Proceedings of the IEEE.
• Pan, Davis. 1995. "A Tutorial on MPEG/Audio Compression". IEEE Multimedia Journal.
• Rabiner, Lawrence. 1989. "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition". Proceedings of the IEEE.
Material docente de la asignatura
• Apuntes y transparencias.
• Actividades de seminario.
• Enunciados de prácticas.
Programas
• PRAAT http://www.fon.hum.uva.nl/praat/
• Octave http://www.gnu.org/software/octave/
• MATLAB