Curso 2013-14

Procesado del Habla

Titulación: Código: Tipo:
Grado en Ingeniería Informática 21480 Optativa
Grado en Ingeniería Telemática 21762 Optativa
Grado en Ingeniería en Sistemas Audiovisuales 21610 Obligatoria 2º curso

 

Créditos ECTS: 4 Dedicación: 100 horas Trimestre:

 

Departamento: Dpto. de Tecnologías de la Información y las Comunicaciones
Coordinador: Emilia Gómez
Profesorado:

Emilia Gómez, Mireia Farrús, Martí Umbert

Idioma:

Catalán (explicaciones), inglés (material)

Horario:
Campus: Campus de la Comunicación - Poblenou

 

Presentación de la assignatura

Éste es un curso intermedio sobre procesado digital de señales sonoras, pensado para estudiantes de Ingeniería en Sistemas Audiovisuales.

La asignatura se centra en el estudio de las principales técnicas de análisis, descripción, síntesis y procesado de señales de voz.

 

Prerequisitos

El curso está construido sobre la base de asignaturas previas de la titulación, principalmente Ingeniería Acústica y Señales y Sistemas (segundo curso, Ingeniería en Sistemas Audiovisuales).

 

Competencias

Competencias a trabajar en la asignatura según indica el plan de estudios del grado:

Competencias  transversalesCompetencias específicas

Instrumentales

G1. Capacidad de análisis y síntesis

G2. Capacidad de organización y planificación

G3. Capacidad de aplicar los conocimientos para el análisis y resolución de problemas

G4. Habilidad en la búsqueda y gestión de la información

G5. Habilidad en la toma de decisiones.

Capacidad de comunicación oral y escrita

Interpersonales

G8. Capacidad de trabajo en equipo

Capacidad de trabajo en contextos interdisciplinares

 

Sistémicas

G11. Capacidad  de aplicar con flexibilidad y creatividad los conocimientos adquiridos y adaptarlos a nuevas situaciones

G12. Capacidad de progresar en los procesos de formación y aprendizaje de manera autónoma y contínua

Competencias Específicas de Formación Básica

B4 - INF / B4 - A. Capacidad para analizar funciones de variable compleja

B7 - INF / B7 - A. Conocer las transformadas de Fourier para señales analógicas y digitales y los elementos básicos de la teoría del muestreo de señales

B8 - INF. Capacidad para resolver sistemas lineales e invariantes y las funciones y transformadas relacionadas

B7 -T. Entender y utilizar los principios de la probabilidad

B9 - A. Adquirir los conocimientos básicos de la física de la propagación del sonido y la relación con los métodos de procesado de señales de audio

Competencias de tecnología específica: Sistemas Audiovisuales

AU1. Capacidad de construir, explotar y gestionar servicios y aplicaciones de telecomunicaciones.

AU3. Capacidad de seleccionar un sistema, componente o proceso del ámbito del sonido y la imagen para cumplir las especificaciones requeridas

AU4. Adquirir conocimientos de técnicas de procesado de audio

AU5. Conocimientos de técnicas de procesado de señal utilizadas en el análisis, síntesis, codificación y reconocimiento del habla. Desarrollo de aplicaciones relacionadas.

AU6. Conocimientos de las técnicas de procesado de señal de audio y música. Desarrollo de aplicaciones relacionadas.

AU22. Principios matemáticos y aproximaciones para la codificación de audio y música.

 

Evaluación

La evaluación se divide en las tres actividades que constituyen la asignatura: teoría (T), seminarios (S) y prácticas de laboratorio (L) de la siguiente manera:

 Algunas característicasTemporalizaciónRecuperable
Pruebas escritas

Examen final (70% de T): el examen final evalúa toda la materia de la asignatura. Inluye preguntas asociadas a las prácticas.

 Final de trimestre

Si

Productos escritos

Control de conocimientos (30% de T): control parcial de conocimientos. Incluye preguntas asociadas a las prácticas.

 Mitad de trimestre

 No

Ejercicios de seminario (S)

A lo largo del trimestre

No

Proves d'execució

Prácticas de laboratorio (L): entrega de memorias de práctiques (35% de L) (de forma individual o en parejas) y una entrevista de prácticas a lo largo del trimestre (5% de L).

A lo largo del trimestre

 No

Requisitos mínimos:

• T: evaluación de los conocimientos. Se requiere un mínimo de 5/10 en ésta nota para aprobar la asignatura.

• L: se requiere un mínimo de 5/10 para aprobar la asignatura.

La nota final se obtiene de la siguiente manera:

Nota Final = 0,5*T + 0,4*L + 0,1*S

 

Contenidos

En esta asignatura se pretende que el estudiante desarrolle una metodología para analizar, reconocer y sintetizar señales de voz (principalmente de habla) utilizando técnicas de procesado de señal. Más concretamente se pretende que el estudiante adquiera competencias teóricas y prácticas relacionadas con:

• Fundamentos acústicos, fisiológicos y perceptuales de la voz.

• Fundamentos de análisis digital de señales de voz.

• Métodos de modelado y procesado de señales de voz.

• Uso de programas de procesado de voz.

• Implementación de algoritmos de procesado de voz.

Éstos conceptos se estructura en los siguientes Bloques de Contenido:

Bloque 1. Introducción:

• Cadena de generación/percepción del habla.

• Fundamentos acústicos del sonido.

• Aplicaciones del procesado digital del habla.

Bloque 2. Fundamentos:

• Fundamentos acústicos de la voz: mecanismos de producción, habla vs canto, clasificación de los sonidos del habla, representación fonética.

• Fundamentos perceptuales: altura, intensidad y timbre.

Bloque 3. Análisis espectral de señales de voz.

• Análisis STFT, espectrograma y multiresolución.

• Extracción de parámetros: energia, ZCR, ST - ACF, pitch.

Bloque 4. Modelos basados en la percepción.

• Modelos físicos vs espectrales vs basados en formantes.

• Fundamentos de la percepción del habla.

• Modelos espectrales.

• Transformación espectral de señales de voz.

Bloque 5. Modelos basados en la producción. Análisis Linear Predictivo (LPC).

Bloque 6. Síntesis Texto-Habla (Text-To-Speech Synthesis).

Bloque 7. Reconocimiento del habla (Automatic Speech Recognition).

• Análisis cepstral.

• Modelos Ocultos de Markov.

 

Metodología

En cada tema se plantea una sesión de teoría, un seminario y una parte de una sesión de laboratorio. En la sesión de teoría se presentan ciertos fondamentos teórico-prácticos en gran grupo. El estudiante tiene que complementar ésta actividad con una lectura de los materiales que el profesor ponga a su disposición. 

Posteriormente se realizará un seminario centrado en la resolución de ejercicios o problemas para poner en prácticas los conceptos teóricos estudiados.El objetivo es que el estudiante consolide los fundamentos para que posteriormente pueda resolver problemas de mayor complejidad. Ésta actividad  se realiza en grupos pequeños con participación activa. 

 El sigüiente paso es la sesión de prácticas, donde se proponen problemas prácticos que requieren un diseño previo y que integra diferentes conceptos y técnicas.  Esta actividad se puede realizar por parejas y continuar fuera del aula.

 

 Sesiones presencialesHoras de estudio
TemasGrupo grande (2h)Grupo pequeño (1h)Grupo mediano (2h)

1. Introducción

2. Fundamentos

2

1

 

5

3. Anàlisis espectral 1 1 1 8
4. Modelos perceptuales 1   1 7
5. Modelos producción 1 1 1 7
6. Text-To-Speech Synthesis 1 1   7 (control)
7.Análisis cepstral 1 1 1 7
8. Reconocimiento 2 2 1 8
Recapitulación   1   8

Preparación de examen final

 

 

 

7

Total:

18

8

10

64

Total: 100

Teoría: 18 horas (9 sesiones de 2 horas).

• Tema 1: Introducción.

• Tema 2: Producción y clasificación de sonidos del habla.

• Tema 3: Análisis espectral.

• Tema 4: Modelos perceptuales.

• Tema 5: Modelos basados en la producción (LPC).

• Tema 6: Síntesis del habla: Text-To-Speech.

• Tema 7: Análisis cepstral.

• Tema 8: Reconocimiento del habla: Modelos Ocultos de Markov (I).

• Teoria 9: Reconocimiento del habla: Modelos Ocultos de Markov (II).

 

Seminarios: 8 sesiones de 1 hora.

• Seminario 1: Acústica de la voz.

• Seminario 2: Análisis espectral.

• Seminario 3: LPC .

• Seminario 4: Control.

• Seminario 5: Cepstrum.

• Seminario 6: Reconocimiento del habla.

• Seminario 7: Transformaciones de voz.

• Seminario 8: Revisión de conocimientos.

 

Laboratorios: 5 sesiones de 2 horas.

• Práctica 1: Análisis espectral.

• Práctica 2: Modelado espectral.

• Práctica 3: Análisis y síntesis.

• Práctica 4: Cepstrum.

• Práctica 5: Reconocimiento del habla.

 

Recursos

Bibliografia básica

• Quatieri, T. F. 2001. Discrete - Time Speech Signal Processing: Principles and Practice. Prentice Hall.

• Rabiner, L. R. and R. W. Schafer. 2007 . Introduction to Digital Speech Processing. Foundations and Trends in Signals Processing, Vol. 1, Nos. 1-2, 2007

 Bibliografía complementária

• Rabiner, L. R. and Schafer, R. W. 1978. Digital Signal Processing of Speech Signals. Prentice Hall.

• O'Shaughnessy, D. 1999. Speech communications: human and machine. Wiley, John & Sons.

• Rabiner, L. R. and B. H. Juang. 1993. Fundamentals of Speech Recognition. Prentice Hall.

• Park, Sung-won. Linear Predictive Speech Processing.

• Park, Sung-won. Discrete Wavelet Transform.

• Spanias, Andreas. 1994. "Speech Coding: A Tutorial Review". Proceedings of the IEEE.

• Pan, Davis. 1995. "A Tutorial on MPEG/Audio Compression". IEEE Multimedia Journal.

• Rabiner, Lawrence. 1989. "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition". Proceedings of the IEEE.

 

Material docente de la asignatura

• Apuntes y transparencias.

• Actividades de seminario.

• Enunciados de prácticas.

 

Programas

• PRAAT http://www.fon.hum.uva.nl/praat/

• Octave http://www.gnu.org/software/octave/

• MATLAB