Llicenciatura en Lingüística (3342)
Fonaments de processamentr del llenguatge natural(13305)
OBJECTIUS
El curs introduirà l’alumne en els algorismes i tècniques fonamentals per al processament del llenguatge natural mitjançant l’observació de dades estadístiques i l’ús de diferents eines: analitzadors d’estats finits, i analitzadors basats en gramàtiques lliures de context i en gramàtiques d’unificació. Es farà especial èmfasi en que l’alumne aprengui com aplicar els conceptes lingüístics i els mètodes computacionals bàsics per al processament dels diferents nivells de representació lingüística: superficial, morfològica, sintàctica i semàntica i la seva rellevància en els diferents àmbits d’aplicació. Els estudiants han d’assolir la comprensió dels mètodes fonamentals de processament simbòlic i estadístic i la capacitat d’avaluar críticament la seva aplicabilitat per a les diferents tasques i aplicacions del processament del llenguatge natural.
A les sessions de pràctiques es proposarà a l’estudiant la solució d’exercicis amb l’ús de diferents programes i eines per al processament del llenguatge natural. Els exercicis estaran relacionats amb el programa de teoria i tenen com a objectiu l’aplicació pràctica dels coneixements teòrics.
TEMARI
Teoria
- Introducció.
- Breu història del Processament del Llenguatge Natural.
- Objectius i àmbits d’aplicació del PLN
- Les paraules
- Identificació d’unitats: els mots. Autòmats i Expressions Regulars.
- Categories lèxiques i categories funcionals. Propietats estadístiques, morfològiques i semàntica lèxica
- Compostos i col·locacions. Mesures d’associació lèxica.
- Morfemes i analitzadors morfològics. Transductors d’estats finits i morfologia de doble nivell
- Cadenes de paraules i Models de llenguatge
- Seqüències i models de n-grames.
- Etiquetatge i Models de llenguatge. Categories, etiquetes, desambiguació basada en regles, estocàstica i Cadenes de Markov.
- Les oracions
- Sintaxi: L’estructura de l’oració
- Categories, constituents i funcions.
- Gramàtiques, regles lliures de context i arbres.
- Analitzadors: algoritmes i tècniques de cerca.
- Processament d’informació sintàctica.
- Concordança. Coordinació. Subcategorització.
- Trets i unificació. Formalismes d’Unificació.
- Gramàtiques lliures de context augmentades amb unificació.
- Anàlisi sintàctica probabilística amb gramàtiques lliures de context. Anàlisi probabilística lexicalitzada.
- Semàntica: El significat de les oracions
- Principi de composicionalitat i lògica de primer ordre.
- Predicats i arguments. Papers temàtics. Restriccions de selecció
- Representació de la informació semàntica.
- Informació semàntica a les gramàtiques d’unificació.
Pràctiques
- Fonaments de processament: expressions regulars i autòmats
- Dades estadístiques del llenguatge: anàlisi de corpus
- Morfologia computacional: el model de doble nivell (PC-Kimmo)
- Anàlisi sintàctica i analitzadors: gramàtiques lliures de context i formalismes d’unificació (DCG en PROLOG, PATR)
BIBLIOGRAFIA BÀSICA
Allen, J. 1995, Natural Language Understanding (second edition), Benjamin Cummins Publishing.
Dale, R., H. Moisl, H. Somers, 2000, Handbook of Natural Language Processing, Marcel Dekker, Inc., New York.
Gazdar G. y Ch. Mellish, 1989, Natural Language Processing in Prolog, Adison Wesley
Jurafsky, D. & J. Martin, 2000, Speech and Language Processing, Prentice Hall