Tractament de la parla (13297)
Titulació/estudi: Llicenciatura en Lingüística
Curs: segon
Trimestre: primer
Nombre de crèdits : 4,5 crèdits
Llengua o llengües de la docència: Català
Presentació general
L'assignatura es planteja com una introducció a les principals tècniques, mètodes i instruments que es fan servir per a l'anàlisi i tractament de la parla, tant des d'un punt de vista teòric com aplicat. L'objectiu és oferir els coneixements bàsics necessaris pel treball tant en la recerca experimental de la parla com en el seu tractament, des d'una perspectiva fonamentalment lingüística, en l'àmbit de les anomenades tecnologies de la parla (codificació de veu, síntesi de parla i reconeixement de parla).
Prerequisits
L'assignatura pressuposa uns mínims coneixements de fonètica articulatòria, acústica i perceptiva, tot i que es repassaran al començament del curs els conceptes bàsics de fonètica acústica necessaris per al seguiment de l'itinerari. No es requereixen coneixements previs de processament del senyal. Si es tria com a mètode d'avaluació la realització d'un treball, són molt recomanables nocions bàsiques d'estadística.
Objectius d'aprenentatge
Introducció a les eines, tècniques i mètodes d'anàlisi experimental de la parla:
- Revisió dels conceptes bàsics de fonètica general, i especialment acústica.
- Coneixement teòric/pràctic de les tècniques bàsiques d'anàlisi acústica.
- Coneixement de Praat i altres eines d'anàlisi i processament de parla.
- Introducció al mètode experimental en el tractament de la parla.
Introducció a les principals tecnologies de la parla:
- Domini teòric/pràctic dels conceptes bàsics en aquest camp
- Introduccióal treball lingüístic en tecnologies de la parla
Competències a assolir
Teòriques:
- Domini dels conceptes bàsics de fonètica acústica.
- Domini dels conceptes bàsics relacionats amb les anomenades tecnologies de la parla (codificació, síntesi reconeixement de parla).
- Introducció a la utilització del mètode experimental en l'anàlisi de la parla.
Pràctiques:
- Habilitats bàsiques en l'ús de programes d'anàlisi de la parla (Praat).
- Habilitats bàsiques en el tractament digital de la parla (conversió analògicdigital, emmagatzemament, codificació de veu).
- Habilitats bàsiques en la utilització de diferents sistemes de generació de parla (síntesi per formants, síntesi articulatòria, síntesi multimodal...)
Continguts
1. Anàlisi acústica de la parla
1.1. La producció de les ones sonores de veu
L'ona sonora. Paràmetres bàsics: temps, amplitud i freqüència. Sons periòdics i aperiòdics. Ones simples i complexes. Descomposició espectral: la transformada de Fourier. Model acústic de la producció de la parla: font i filtre. Tipus de fonts sonores.Fonamental i harmònics. Filtres i ressonadors. Trets acústics dels senyals de parla.
1.2. Mètodes bàsics de representació i anàlisi acústica de la veu
La representació temporal de la forma d'ona. Representacions espectrals: espectres, envolvents LPC, espectrogrames. Representació dels paràmetres prosòdics: corbes de freqüència fonamental, corbes d'energia. Eines per a l'anàlisi de la veu.
1.3. L'anàlisi experimental de la parla
Mètode experimental i anàlisi acústica de la parla. El disseny d'un experiment. Determinació de la hipótesi. La recollida de les dades: selecció i control de variables; preparació del corpus de treball. Anàlisi experimental. La selecció del procediment experimental. L'análisi estadística. La presentació dels resultats.
2. Codificació de parla
2.1. La conversió analògic-digital (A/D)
Senyals analògics i senyals digitals. Concepte de mostreig. Freqüència de mostreig. Resolució del convertidor A/D. Aliasing. Saturació.
2.2. Codificació de senyals de parla
Concepte de codificació: necessitat i aplicacions. Mètodes de codificació del senyals de veu: codificació de forma d'ona i codificació paramètrica. Codificació de forma d'ona:PCM, ADPCM. Codificació paramètrica: LPC, codificació sinusoidal, MP3, AAC,CELP.
3. Síntesi de parla
3.1. Mètodes i tècniques per a la síntesi
Anàlisi-resíntesi, síntesi per concatenació d'unitats. Tècniques basades en codificació: LPC, sinusoidal. Les aproximacions paramètriques: síntesi articulatòria, síntesi per formants.
3.2. Conversió text-parla
Síntesi de parla i conversió text-parla. Fases en la conversió text-parla. El processament lingüístic per a la conversió text-parla: preprocessament, transcripció fonètica, anàlisi morfosintàctica, anàlisi prosòdica. El procés de síntesi en la conversió text-parla: la selecció de les unitats; la generació dels paràmetres prosòdics; tècniques per a la manipulació dels paràmetres prosòdics. PSOLA, MBROLA. La síntesi multimodal.
4. Reconeixement de parla
4.1. Conceptes generals
Concepte de reconeixement de parla. Fases en el procés de reconeixement: parametrització i reconeixement. Altres tipus de reconeixement: reconeixement de locutor, reconeixement d'idioma, reconeixement d'estats emocionals.
4.2. La parametrització del senyal
Tipus de paràmetres empleats en reconeixement. Paràmetres temporals i prosòdics: creuaments per zero, energia, freqüència fonamental. Paràmetres espectrals: formants, cepstrum.
4.3. Tècniques de reconeixement
La comparació de patrons: alineament temporal (DTW). Reconeixement amb models de Markov: fase d'entrenament i fase de reconeixement. El reconeixement amb xarxes neuronals. Aproximacions basades en coneixement lingüístic: el reconeixement basat en regles. Models del llenguatge pel reconeixement.
Metodologia
L'assignatura s'articula en torn de dos eixos:
- les classes teòriques (15 hores), a les quals s'introduiran els diferents conceptes teòrics;
- les sessions pràctiques (10 hores), al llarg de les quals els alumnes hauran de realitzar, amb el suport del professor, una sèrie d'activitats per reforçar els conceptes teòrics treballats a les sessiones teòriques i assolir les competències pràctiques objecte del curs.
Els alumnes hauran de completar la seva dedicació a l'assignatura amb un nombre d'hores de treball fora d'aquestes sessions, per completar les activitats pràctiques i realitzar el treball de curs, si es tria aquesta forma d'avaluació.
Avaluació
Els alumnes podran triar entre dues opcions, tant a la primera convocatòria com a la segona, per a l'avaluació:
- Examen teòric/pràctic al final del trimestre (70% de la qualificació), més una pràctica avaluada durant la segona part del trimestre (30%).
- Treball de curs, individual o en grup, sobre un tema prèviament acordat amb el professor relacionat amb el temari de l'assignatura.
Independentment de l'opció triada, serà requisit previ per a ser avaluat haver entregat totes les activitats proposades a les sessions pràctiques.
Fonts d'informació i recursos didàctics
A més d'aquesta llista general, es proporcionaran als alumnes llistes específiques de material de consulta al començament de cada tema.
1. Bibliografia bàsica
GOLD, B- MORGAN, N. (2000).- Speech and Audio Signal Processing, Processing and Perception of Speech and Music, Wiley.
FURUI, S. (2001).- Digital Speech Processing, Synthesis and Recognition (Second Edition, Revised andNew York, Marcel Dekker, Inc.
Expanded)
HARRINGTON, J. - CASSIDY, S. (1999).- Techniques in Speech Acoustics, Dordrecht, Kluwer Academic Publishers.
HOLMES, J.N.- HOLMES, W. (2001).- Speech Synthesis and Recognition. London, Taylor & Francis.
LADEFOGED, P. (2003).- Phonetic Data Analysis. An Introduction to Fieldwork and Instrumental, Malden, Blackwell.
Techniques
NEJAT, A. (Ed.) (1991).- Digital Speech Processing: Speech Coding, Synthesis and Recognition, The
International Series in Engineering and Computer Science.
O´SHAUGHNESSY, D. (1987).- Speech Communication. Human and Machine. Addison Wesley Series
in Electrical Engineering, 2na edició, 2000.
QUANTIERI, T.F. (2002).- Discrete-Time Speech Signal Processing. Principles and Practice, Prentice Hall.
RODMAN, R. D. (1999).- Computer Speech Technology, Boston/London, Artech House.
SCHROEDER, M. R. (1999).- Computer Speech. Recognition, Compression, Synthesis, Springer-Verlag.2. Materials en línia
ROBINSON, T. Speech Analysis, University of Cambridge
http://svr-www.eng.cam.ac.uk/~ajr/SpeechAnalysis/