Tractament Digital de la Parla (12468)- Curs 2007-2008

Descripció
En aquesta assignatura es farà un breu repàs a la interacció home-màquina a través de la parla al llarg del temps i com aquesta s'ha incrementat molt en els darrers anys, degut sobretot a la major potència i capacitat de càlcul dels ordinadors. Es veurà també quines són les característiques de la veu des d'un punt de vista del tractament del senyal i com se'n pot treure informació útil a través de criteris psicoacústics i amb models sintètics de l'oïda humana. L'aplicació de tècniques d'identificació de patrons com les xarxes neuronals o els models ocults de Markov ens portarà a entendre com els ordinadors són capaços de descodificar els missatges parlats. A partir dels models humans del tracte vocal i de producció de la parla, es veurà com es pot produir de manera sintètica veu amb modificació dels formants i per concatenació.També es farà un repàs a les tècniques existents de compressió d'informació de la veu com ara CELP o l'estàndard en telefonia mòbil GSM.

Temari

Tema 1. Introducció al tractament de la parla

Tema 2. Models de producció

Tema 3. Codificació GSM

Tema 4. Models de percepció

Tema 5. Classificadors

Tema 6. Extracció de paràmetres

Tema 7. Models ocults de Markov

Tema 8. Síntesi

Organització
Les classes s'organitzen en una sessió de teoria (2 hores) i una de pràctiques (2 hores) per setmana.

Pràctiques
Durant les sessions de pràctiques, els estudiants hauran d'implementar alguns dels conceptes vistos en les sessions de teoria. Al final de les pràctiques, els estudiants faran un petit treball que uneixi totes les parts desenvolupades de manera que a l'acabar l'assignatura s'hagi aconseguit un sistema capaç de reconeixer ordres verbal i sintetizar respostes a aquestes ordres.

Mètode d'avaluació
L'avaluació es fa mitjançant les pràctiques (50% de la nota final) i l'examen final (l'altre 50%).

Bibliografia bàsica
BEN GOLD and NELSON MORGA:Speech and Audio Signal Processing,John Wiley & Sons, 1999

Bibliografia complementària
DONALD CHILDERS:Speech Processing and Synthesis Toolboxes, John Wiley & Sons, 1999
MANFRED SCHROEDER: Computer SpeechSpringer, 1999
ROBERT RODMAN: Computer Speech Technology, Artech House, 1999