Pla docent

Curso 2014-15

Procesado del Habla

Titulación:	Código:	Tipo:
Grado en Ingeniería Informática	21480	Optativa
Grado en Ingeniería Telemática	21762	Optativa
Grado en Ingeniería en Sistemas Audiovisuales	21610	Obligatoria 2º curso

Créditos ECTS:

Dedicación:

100 horas

Trimestre:

3º

Departamento:	Dpto. de Tecnologías de la Información y las Comunicaciones
Coordinador:	Emilia Gómez
Profesorado:	Emilia Gómez, Mireia Farrús, Martí Umbert
Idioma:	Catalán (explicaciones), inglés (material)
Horario:
Campus:	Campus de la Comunicación - Poblenou

Presentación de la assignatura

Éste es un curso intermedio sobre procesado digital de señales sonoras, pensado para estudiantes de Ingeniería en Sistemas Audiovisuales.

La asignatura se centra en el estudio de las principales técnicas de análisis, descripción, síntesis y procesado de señales de voz.

Prerequisitos

El curso está construido sobre la base de asignaturas previas de la titulación, principalmente Ingeniería Acústica y Señales y Sistemas (segundo curso, Ingeniería en Sistemas Audiovisuales).

Competencias

Competencias a trabajar en la asignatura según indica el plan de estudios del grado:

Competencias transversales	Competencias específicas
Instrumentales G1. Capacidad de análisis y síntesis G2. Capacidad de organización y planificación G3. Capacidad de aplicar los conocimientos para el análisis y resolución de problemas G4. Habilidad en la búsqueda y gestión de la información G5. Habilidad en la toma de decisiones. Capacidad de comunicación oral y escrita Interpersonales G8. Capacidad de trabajo en equipo Capacidad de trabajo en contextos interdisciplinares Sistémicas G11. Capacidad de aplicar con flexibilidad y creatividad los conocimientos adquiridos y adaptarlos a nuevas situaciones G12. Capacidad de progresar en los procesos de formación y aprendizaje de manera autónoma y contínua	Competencias Específicas de Formación Básica B4 - INF / B4 - A. Capacidad para analizar funciones de variable compleja B7 - INF / B7 - A. Conocer las transformadas de Fourier para señales analógicas y digitales y los elementos básicos de la teoría del muestreo de señales B8 - INF. Capacidad para resolver sistemas lineales e invariantes y las funciones y transformadas relacionadas B7 -T. Entender y utilizar los principios de la probabilidad B9 - A. Adquirir los conocimientos básicos de la física de la propagación del sonido y la relación con los métodos de procesado de señales de audio Competencias de tecnología específica: Sistemas Audiovisuales AU1. Capacidad de construir, explotar y gestionar servicios y aplicaciones de telecomunicaciones. AU3. Capacidad de seleccionar un sistema, componente o proceso del ámbito del sonido y la imagen para cumplir las especificaciones requeridas AU4. Adquirir conocimientos de técnicas de procesado de audio AU5. Conocimientos de técnicas de procesado de señal utilizadas en el análisis, síntesis, codificación y reconocimiento del habla. Desarrollo de aplicaciones relacionadas. AU6. Conocimientos de las técnicas de procesado de señal de audio y música. Desarrollo de aplicaciones relacionadas. AU22. Principios matemáticos y aproximaciones para la codificación de audio y música.

Competencias transversales

Competencias específicas

Instrumentales

G1. Capacidad de análisis y síntesis

G2. Capacidad de organización y planificación

G3. Capacidad de aplicar los conocimientos para el análisis y resolución de problemas

G4. Habilidad en la búsqueda y gestión de la información

G5. Habilidad en la toma de decisiones.

Capacidad de comunicación oral y escrita

Interpersonales

G8. Capacidad de trabajo en equipo

Capacidad de trabajo en contextos interdisciplinares

Sistémicas

G11. Capacidad de aplicar con flexibilidad y creatividad los conocimientos adquiridos y adaptarlos a nuevas situaciones

G12. Capacidad de progresar en los procesos de formación y aprendizaje de manera autónoma y contínua

Competencias Específicas de Formación Básica

B4 - INF / B4 - A. Capacidad para analizar funciones de variable compleja

B7 - INF / B7 - A. Conocer las transformadas de Fourier para señales analógicas y digitales y los elementos básicos de la teoría del muestreo de señales

B8 - INF. Capacidad para resolver sistemas lineales e invariantes y las funciones y transformadas relacionadas

B7 -T. Entender y utilizar los principios de la probabilidad

B9 - A. Adquirir los conocimientos básicos de la física de la propagación del sonido y la relación con los métodos de procesado de señales de audio

Competencias de tecnología específica: Sistemas Audiovisuales

AU1. Capacidad de construir, explotar y gestionar servicios y aplicaciones de telecomunicaciones.

AU3. Capacidad de seleccionar un sistema, componente o proceso del ámbito del sonido y la imagen para cumplir las especificaciones requeridas

AU4. Adquirir conocimientos de técnicas de procesado de audio

AU5. Conocimientos de técnicas de procesado de señal utilizadas en el análisis, síntesis, codificación y reconocimiento del habla. Desarrollo de aplicaciones relacionadas.

AU6. Conocimientos de las técnicas de procesado de señal de audio y música. Desarrollo de aplicaciones relacionadas.

AU22. Principios matemáticos y aproximaciones para la codificación de audio y música.

Evaluación

La evaluación se divide en las tres actividades que constituyen la asignatura: teoría (T), seminarios (S) y prácticas de laboratorio (L) de la siguiente manera:

	Algunas características	Temporalización	Recuperable
Pruebas escritas	Examen final (70% de T): el examen final evalúa toda la materia de la asignatura. Inluye preguntas asociadas a las prácticas.	Final de trimestre	Si
Productos escritos	Control de conocimientos (30% de T): control parcial de conocimientos. Incluye preguntas asociadas a las prácticas.	Mitad de trimestre	No
Productos escritos	Ejercicios de seminario (S)	A lo largo del trimestre	No
Proves d'execució	Prácticas de laboratorio (L): entrega de memorias de práctiques (35% de L) (de forma individual o en parejas) y una entrevista de prácticas a lo largo del trimestre (5% de L).	A lo largo del trimestre	No

Requisitos mínimos:

• T: evaluación de los conocimientos. Se requiere un mínimo de 5/10 en ésta nota para aprobar la asignatura.

• L: se requiere un mínimo de 5/10 para aprobar la asignatura.

La nota final se obtiene de la siguiente manera:

Nota Final = 0,5*T + 0,4*L + 0,1*S

Contenidos

En esta asignatura se pretende que el estudiante desarrolle una metodología para analizar, reconocer y sintetizar señales de voz (principalmente de habla) utilizando técnicas de procesado de señal. Más concretamente se pretende que el estudiante adquiera competencias teóricas y prácticas relacionadas con:

• Fundamentos acústicos, fisiológicos y perceptuales de la voz.

• Fundamentos de análisis digital de señales de voz.

• Métodos de modelado y procesado de señales de voz.

• Uso de programas de procesado de voz.

• Implementación de algoritmos de procesado de voz.

Éstos conceptos se estructura en los siguientes Bloques de Contenido:

Bloque 1. Introducción:

• Cadena de generación/percepción del habla.

• Fundamentos acústicos del sonido.

• Aplicaciones del procesado digital del habla.

Bloque 2. Fundamentos:

• Fundamentos acústicos de la voz: mecanismos de producción, habla vs canto, clasificación de los sonidos del habla, representación fonética.

• Fundamentos perceptuales: altura, intensidad y timbre.

Bloque 3. Análisis espectral de señales de voz.

• Análisis STFT, espectrograma y multiresolución.

• Extracción de parámetros: energia, ZCR, ST - ACF, pitch.

Bloque 4. Modelos basados en la percepción.

• Modelos físicos vs espectrales vs basados en formantes.

• Fundamentos de la percepción del habla.

• Modelos espectrales.

• Transformación espectral de señales de voz.

Bloque 5. Modelos basados en la producción. Análisis Linear Predictivo (LPC).

Bloque 6. Síntesis Texto-Habla (Text-To-Speech Synthesis).

Bloque 7. Reconocimiento del habla (Automatic Speech Recognition) y del locutor (Speaker Recognition).

• Análisis cepstral.

• Modelos Ocultos de Markov.

Metodología

En cada tema se plantea una sesión de teoría, un seminario y una parte de una sesión de laboratorio. En la sesión de teoría se presentan ciertos fondamentos teórico-prácticos en gran grupo. El estudiante tiene que complementar ésta actividad con una lectura de los materiales que el profesor ponga a su disposición.

Posteriormente se realizará un seminario centrado en la resolución de ejercicios o problemas para poner en prácticas los conceptos teóricos estudiados.El objetivo es que el estudiante consolide los fundamentos para que posteriormente pueda resolver problemas de mayor complejidad. Ésta actividad se realiza en grupos pequeños con participación activa.

El sigüiente paso es la sesión de prácticas, donde se proponen problemas prácticos que requieren un diseño previo y que integra diferentes conceptos y técnicas. Esta actividad se puede realizar por parejas y continuar fuera del aula.

	Sesiones presenciales			Horas de estudio
Temas	Grupo grande (2h)	Grupo pequeño (1h)	Grupo mediano (2h)	Horas de estudio
1. Introducción 2. Fundamentos	2	1		5
3. Anàlisis espectral	1	1	1	8
4. Modelos perceptuales	1		1	7
5. Modelos producción	1	1	1	7
6. Text-To-Speech Synthesis	1	1		7 (control)
7.Análisis cepstral	1	1	1	7
8. Reconocimiento	2	2	1	8
Recapitulación		1		8
Preparación de examen final				7
Total:	18	8	10	64	Total: 100

Teoría: 18 horas (9 sesiones de 2 horas).

• Tema 1: Introducción.

• Tema 2: Producción y clasificación de sonidos del habla.

• Tema 3: Análisis espectral.

• Tema 4: Modelos perceptuales.

• Tema 5: Modelos basados en la producción (LPC).

• Tema 6: Síntesis del habla: Text-To-Speech.

• Tema 7: Análisis cepstral.

• Tema 8: Reconocimiento del habla

• Teoria 9: Reconocimiento de locutor

Seminarios: 8 sesiones de 1 hora.

• Seminario 1: Acústica de la voz.

• Seminario 2: Análisis espectral.

• Seminario 3: LPC .

• Seminario 4: Control.

• Seminario 5: Cepstrum.

• Seminario 6: Reconocimiento del habla.

• Seminario 7: Transformaciones de voz.

• Seminario 8: Revisión de conocimientos.

Laboratorios: 5 sesiones de 2 horas.

• Práctica 1: Análisis espectral.

• Práctica 2: Modelado espectral.

• Práctica 3: Análisis y síntesis.

• Práctica 4: Cepstrum.

• Práctica 5: Reconocimiento del habla.

Recursos

Bibliografia básica

• Quatieri, T. F. 2001. Discrete - Time Speech Signal Processing: Principles and Practice. Prentice Hall.

• Rabiner, L. R. and R. W. Schafer. 2007 . Introduction to Digital Speech Processing. Foundations and Trends in Signals Processing, Vol. 1, Nos. 1-2, 2007

Bibliografía complementária

• Rabiner, L. R. and Schafer, R. W. 1978. Digital Signal Processing of Speech Signals. Prentice Hall.

• O'Shaughnessy, D. 1999. Speech communications: human and machine. Wiley, John & Sons.

• Rabiner, L. R. and B. H. Juang. 1993. Fundamentals of Speech Recognition. Prentice Hall.

• Park, Sung-won. Linear Predictive Speech Processing.

• Park, Sung-won. Discrete Wavelet Transform.

• Spanias, Andreas. 1994. "Speech Coding: A Tutorial Review". Proceedings of the IEEE.

• Pan, Davis. 1995. "A Tutorial on MPEG/Audio Compression". IEEE Multimedia Journal.

• Rabiner, Lawrence. 1989. "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition". Proceedings of the IEEE.

Material docente de la asignatura

• Apuntes y transparencias.

• Actividades de seminario.

• Enunciados de prácticas.

Programas

• PRAAT http://www.fon.hum.uva.nl/praat/

• Octave http://www.gnu.org/software/octave/

• MATLAB