Curs 2010-11

Processament de la Parla (21610)

Titulació/estudi: Grau d'Enginyeria en Sistemes Audiovisuals
Curs: segon
Trimestre: tercer
Nombre de crèdits ECTS: 4 crèdits
Hores de dedicació de l'estudiant: 100 hores
Llengua o llengües de la docència: Català/Castellà/Anglès
Professor: Emilia Gómez (coordinadora), Martí Umbert

1. Presentació de l'assignatura

Aquest és un curs intermitj al processament digital del senyals sonores, pensat per estudiants de Enginyeria en Sistemes Audiovisuals.
El curs està construit sobre la base de assignatures prèvies de la titulació, principalment Enginyeria Acústica i Senyals i Sistemes (segón curs, Enginyeria en Sistemes Audiovisuals).
Ens centrarem en l'estudi de les principals tècniques d'anàlisi, descripció, síntesi i processament de senyals de veu.

2. Competències que s'han d'assolir

Competències¹a treballar a l'assignatura segons allò indicat en el pla d'estudis del grau.

Competències transversals

Competències específiques

Instrumentals

1. Capacitat d'anàlisi i síntesi.
2. Capacitat d'organització i planificació.
3. Capacitat de resolució de problemes.
4. Habilitat en la cerca i la gestió de la informació.
5. Capacitat de comunicar-se en context acadèmic de forma oral i escrita en català, castellà i anglès.

Interpersonals

6. Capacitat de treball en èquip.
7. Capacitat de treball en contextos internacionals i interdisciplinaris.

Sistèmiques

8. Capatitat per integrar coneixements i metodologies en la pràctica.
9. Preocupació per la qualitat.

1. Entendre i saber utilitzar els conceptes matemàtics adequats per representar els senyals i els sistemes digitals.

2. Entendre els mecanismes fisiològics, acústics i perceptuals que intervenen en el procés de generació i percepció de veu i parla.

3. Saber utilitzar els filtres digitals i les tècniques de processament espectral per a modelar i processar els senyals de parla.

4. Entendre els conceptes i les tècniques utilitzades en la codificació de senyals d'àudio i en particular dels senyals de parla.

5. Entendre els conceptes i les tècniques utilitzades en el reconeixement de la parla.

6. Saber fer servir programari existent, i a la vegada dissenyar i implementar algorismes de processament de senyals de parla.

1 Competències transversals: Aquelles que es requereixen en l'exercici de qualsevol titulació o carrera (comunicació verbal i escrita, pensament analític i sistèmic, resolució de problemes, creativitat, etc.). Es classifiquen en:

Instrumentals: Inclouen habilitats cognitives, metodològiques, tecnològiques i lingüístiques. (Ex: capacitat d'organitzar i planificar, capacitat de comunicar-se amb propietat de forma oral i escrita en català, castellà i/o anglès, tant davant d'audiències expertes com inexpertes).

Interpersonals: Es defineixen com habilitats que tendeixen a facilitar els processos d'interacció social i cooperació. (Ex: capacitat per a treballar en grup, expressió del compromís ètic/social).

Sistèmiques o integradores: Suposen una combinació de comprensió, sensibilitat i coneixement que permeten veure com s'agrupen i s'estableixen relacions entre les parts d'un tot. Aquestes competències requereixen, com a base, l'adquisició prèvia de competències instrumentals i interpersonals. (Ex: capacitat d'adaptar-se a nous contexts d'aprenentatge).

Competències específiques: Es relacionen amb els coneixements i pràctiques concretes del grau. (Ex: capacitat de descriure, programar, validar i optimitzar protocols i interfaces de comunicació en els diferents nivells d'una arquitectura de xarxes).

3. Continguts

En aquesta assignatura es vol que l'alumne desenvolupi una metodologia per a analitzar, codificar, reconeixer i sintetitzar senyals de veu (principalment de parla) utilitzant tècniques de processament del senyal. Més concretament es pretén que l'estudiant acquereixi competències teòriques i pràctiques relacionades amb:

• Fonaments acústics, fisiològics i perceptuals de la veu.
• Fonaments de l'anàlisi digital de senyals de veu.
• Mètodes de modelat i processament de senyals de veu.
• Us de programari de processament de veu.
• Implementació, amb un llenguatge de programació, d'algorismes de processament del senyal pel processament de la veu.

Aquests conceptes s'estructuren en els següents Blocs de Contingut:

Bloc 1. Introducció:

• Cadena de generació/percepció de la parla.
• Aplicacions del processament digital de la parla.

Bloc 2. Fonaments:

• Fonaments acústics: mecanismes de producció de la veu, parla vs cant, classificació dels sons de la parla, representació fonètica.
• Fonamens perceptuals: alçada, intensitat i timbre.

Bloc 3. Anàlisi espectral de senyals de veu.

• Anàlisi espectral de senyals de veu: STFT, espectrograma.
• Extracció de paràmetres: energia, ZCR, ST-ACF, pitch.
• Anàlisi multi-resolució: Wavelet.

Bloc 4. Models basats en la percepció del so.

• Síntesi de veu amb modelat espectral.
• Transformacions.

Bloc 5. Models basats en la producció de la parla.

• Anàlisi Linear Predictiu (LPC).

Bloc 6. Codificació de la parla.

Bloc 7. Síntesi Texte-Parla (Text-to-Speech Synthesis).

Bloc 8. Reconeixement de parla (Automatic Speech Recognition).

• Anàlisi cepstrum.
• Models de Markov.

4. Avaluació

Criteris generals d'avaluació

L'avaluació es fa per a cada una de les tres activitats que constitueixen l'assignatura: classes de teoria, seminaris i laboratoris. Essent:

• T: l'avaluació de la teoria mitjançant un examen final i un control de coneixements al mig del trimestre (que val un 30% de la nota de teoria). L'examen final avalúa tota la materia de l'assignatura.
• L: l'avaluació dels laboratoris amb la participació en aquests i l'entrega de les memòries de pràctiques.
• S: l'avaluació dels seminaris amb la participació en aquests.

La nota final s'obté fent la mitjana ponderada de la següent manera:

Nota Final = 0,5*T + 0,4*L + 0,1*S

Al final de l'assignatura es realitza un examen escrit i individual per avaluar la comprensió dels continguts presentats en les classes de teoria i reforçats amb els seminaris i laboratoris. Aquesta avaluació és obligatòria i ha de ser qualificada amb com a mínim un 4/10 per tal de aprovar l'assignatura.

En els laboratoris es realitzen una sèrie de pràctiques que posen a prova la capacitat dels alumnes de resoldre problemes pràctics i d'implementar algorismes en forma de programes en un ordinador. Les practiques s'han d'entregar individualment abans de la practica següent. L'avaluació es fa a partir del seguiment realitzat a classe pel professor i de la correcció de les memòries de pràctiques.

Aquesta avaluació també és obligatòria i ha de ser qualificada com a mínim amb un 5/10 per tal de aprovar l'assignatura.

Abans de cada seminari s'entrega una sèrie d'activitats als alumnes, com a una preparació prèvia al seminari. Aquestes activitats corresponen a conceptes o coneixements tractats a classe de teoria i posats a la practica en els laboratoris. Durant el seminari tots els estudiants han de participar en la resolució de les activitats. L'avaluació de seminaris es centra en la participació dels estudiants a les activitats del seminaris.

Competències a assolir en l'assignatura

Indicador d'assoliment

Procediment d'avaluació

Temporalització

1. Capacitat d'anàlisi i síntesis.

2. Capacitat d'organització i planificació.

3. Capacitat de resolució de problemas.

4. Habilitat en la cerca i la gestió de la informació.

5. Capacitat de comunicar-se en context acadèmic de forma oral i escrita en català, castellà i anglès.

6. Capacitat de treball en equip.

7. Capacitat per integrar coneixements i metodologies en la pràctica.

8. Preocupació per la qualitat.

1. Anàlisis correcte de problemes plantejats.

2. Planificació de tasques.

3. Resolució de qüestions teòrico-pràctiques.

4. Consulta de bibliografia i fonts externes.

5. Presentacions orals i escrites correctes.

6. Participació en els seminaris en grups.

7. Pràctiques correctes.

8. Qualitat de les memòries de pràctiques i del resultat de seminaris.

1. Pràctiques, seminaris i examen final.

2. Pràctiques.

3. Pràctiques, seminaris i examen final.

4. Pràctiques i seminaris.

5. Pràctiques, seminaris i examen final.

6. Seminaris.

7. Pràctiques.

8. Pràctiques i seminaris.

Tot el trimestre.

1. Entendre i saber utilitzar els conceptes matemàtics adequats per representar els senyals i els sistemes digitals.

2. Entendre els mecanismes fisiològics, acústics i perceptuals que intervenen en el procés de generació i percepció de veu i parla.

3. Saber utilitzar els filtres digitals i les tècniques de processament espectral per a modelar i processar els senyals de parla.

4. Entendre els conceptes i les tècniques utilitzades en la codificació de senyals d'àudio i en particular dels senyals de parla.

5. Entendre els conceptes i les tècniques utilitzades en el reconeixement de la parla.

6. Saber fer servir programari existent, i a la vegada dissenyar i implementar algorismes de processament de senyals de parla.

Realitzar correctament les diferents proves de l'assignatura.

Pràctiques, seminaris i examen final

Tot el trimestre

5. Bibliografia i recursos didàctics

5.1. Fonts d'informació per a l'aprenentatge. Bibliografia bàsica (suport paper i electrònic)

Quatieri, T. F. 2001. Discrete-Time Speech Signal Processing: Principles and Practice. Prentice Hall.
Rabiner, L. R. and R. W. Schafer. 2007. Introduction to Digital Speech Processing. Foundations and Trends in Signals Processing, Vol. 1, Nos. 1-2, 2007.

5.2. Fonts d'informació per a l'aprenentatge. Bibliografia complementària (suport paper i electrònic)

Rabiner, L. R. and R. W. Schafer. 1978. Digital Signal Processing of Speech Signals. Prentice Hall.
O'Shaughnessy, D. 1999. Speech communications: human and machine. Wiley, John & Sons.
Rabiner, L. R. and B. H. Juang. 1993. Fundamentals of Speech Recognition. Prentice Hall.
Park, Sung-won. Linear Predictive Speech Processing.
Park, Sung-won. Discrete Wavelet Transform.
Spanias, Andreas. 1994. "Speech Coding: A Tutorial Review". Proceedings of the IEEE.
Pan, Davis. 1995. "A Tutorial on MPEG/Audio Compression". IEEE Multimedia Journal.
Rabiner, Lawrence. 1989. "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition". Proceedings of the IEEE.

5.3. Recursos didàctics. Material docent de l'assignatura

Per a cada sessió de teoria hi ha disponible uns apunts a la Web de l'assignatura.
Per a cada sessió de seminari hi ha disponible una col·lecció d'activitats a la Web de l'assignatura.
Per a cada sessió de pràctiques hi ha disponible el enunciat de la pràctica a la Web de l'assignatura.

5.4. Programari

PRAAT http://www.fon.hum.uva.nl/praat/

Octave http://www.gnu.org/software/octave/

MATLAB

6. Metodologia

7.1. Enfocament metodològic de l'assignatura

El procés habitual d'aprenentatge per cada un dels blocs de continguts està compost per una sessió de teoria, un seminari i una part d'una sessió de laboratori. Cada bloc comença amb una sessió de teoria en la que es presenten certs fonaments teorico-pràctics. Aquesta activitat es realitza en grup gran. L'estudiant ha de complementar aquesta activitat amb una lectura detinguda dels seus propis apunts i del material addicional que el professor hagi proporcionat. Per exemple, una sessió de teoria de 2 hores, convenientment aprofitades, requerirà un treball addicional fora de l'aula d'1 hora per part de l'estudiant.

Posteriorment es realitzarà un seminari centrat en la resolució d'exercicis o problemes per posar en pràctica els conceptes i tècniques presentades a la sessió de teoria. Per als primers exercicis de la sessió es proporcionaran les solucions, però per a la resta no. L'objectiu és que l'estudiant consolidi els fonaments per tal que posteriorment pugi resoldre problemes de major complexitat. Aquesta activitat es realitza en grups petits de seminari on tots els estudiant han de participar activament en la resolució dels problemes.

El següent pas en el procés d'aprenentatge és el laboratori o sessió de pràctiques. En ell es proposen uns problemes pràctics que requereixen un disseny previ de la solució a implementar i que han d'integrar diferents conceptes i tècniques. Aquesta activitat es pot realitzar per parelles, i es pressuposa que continua fora de l'aula.

L'últim pas en el procés d'aprenentatge de cada bloc de continguts és el de la realització de l'examen final de teoria i de la prova oral de pràctiques per comprovar si l'estudiant ha adquirit les competències demanades.

Set.	Blocs de contingut	Sessions presencials			Hores d'estudi
Set.	Blocs de contingut	Grup gran (2h)	Grup petit (1h)	Grup mitjà (2h)
1	1. Introducció 2. Fonaments	T1			4
2	2. Fonaments	T2	S1. Acústica		5
3	3. Anàlisi espectral	T3	S2. Anàlisi espectral	L1. Enregistrament i Anàlisi	5
4	4. Models perceptuals	T4		L2. Model espectral	5
5	5. Models producció	T5	S3. Models	L3. Anàlisi i síntesi LPC	5
6	6. Codificació	T6	S4. Codificació		7
7	7. Text-To-Speech Synthesis	T7	S5. Control		6
8	8. Reconeixement	T8	S6. Reconeixement	L4. Cepstum	6
9	8. Reconeixement	T9	S7. Transformacions	L5. Reconeixement	6
10			S8. Arees de treball		8
	Preparació de l'examen final				7
	Total	18	8	10	64

Teoria: es corresponen amb els blocs de continguts esmentats. 18 hores (9 sessions de 2 hores).

Teoria 1: Introducció.
Teoria 2: Fonaments.
Teoria 3: Anàlisi espectral.
Teoria 4: Models perceptuals.
Teoria 5: Models basats en la producció de veu.
Teoria 6: Codificació.
Teoria 7: Text-To-Speech Synthesis.
Teoria 8: Reconeixement de parla: Anàlisi cepstrum, Sistemes de reconeixement automàtic.
Teoria 9: Reconeixement de parla: Models ocults de markov.

Seminaris: 8 sessions de 1 hora.

Seminari 1: Acústica de la veu.
Seminari 2: Anàlisi espectral.
Seminari 3: Models de parla.
Seminari 4: Codificació de la parla.
Seminari 5: Control de coneixements (T1-T6).
Seminari 6: Reconeixement de la parla.
Seminari 7: Transformacions de la parla.
Seminari 8: Àrees de treball relacionades amb el processament de la veu.

Laboratoris: 5 sessions de 2 hores.

Laboratori 1: Enregistrament i anàlisi espectral de veu.
Laboratori 2: Model espectral.
Laboratori 3: Anàlisi i síntesi de veu: LPC.
Laboratori 4: Cepstrum i MFCC's.
Laboratori 5: Reconeixement de la parla amb MFCC's.