Curs 2010-11

Morfosintaxi computacional (13296)

Titulació/estudi: Llicenciatura en Lingüística
Trimestre: segon
Nombre de crèdits ECTS: 5 crèdits 
Llengua o llengües de la docència: català
Professor: Toni Badia

Objectius

Aquest curs té com a objectiu bàsic donar a conèixer les tècniques principals de tractament computacional de la morfologia i la sintaxi. L'assignatura, doncs, ofereix un recorregut per diversos tractaments de la morfologia, l'etiquetat, i l'anàlisi sintàctica.

És requisit per a seguir aquest curs haver superat les assignatures de formació bàsica en:

    * programació i estadística:

  • Fonaments de la programació
  • Introducció a la Lingüística Computacional
  • Programació
  • Estadística

    * morfologia i sintaxi:

  • Morfologia
  • Sintaxi

L'objectiu fonamental d'aquesta assignatura és aprendre les tècniques principals que s'utilitzen en el tractament computacional de la morfologia i la sintaxi, és a dir, en el tractament dels mots i de les cadenes de mots que formen les frases.

L'assignatura és la segona en la sèrie d'assignatures dedicades a processament computacional del llenguatge. Ocupa, per tant un lloc entre Tractament de la parla i Semàntica i pragmàtica computacionals, del primer i tercer trimestres respectivament. La seva especificitat és que està dedicada al tractament de les cadenes de text (mots o frases).

En aquesta assignatura l'estudiant podrà:

    * conèixer, escriure i fer servir processadors morfològics

    * conèixer, escriure i fer servir processadors sintàctics

    * conèixer, escriure i fer servir desambiguadors morfosintàctics

Competències generals

Capacitat d'analitzar un text en el seu sentit general.

Capacitat d'identificar els recursos lingüístics utilitzats per l'autor

Capacitat d'identificar els recursos estilístics utilitzats per l'autor

Capacitat d'aprenentatge autònom

Capacitat de prendre decisions i justificar-les

Capacitat de recerca documental

Competències específiques

1. Lingüística

  • Capacitat de comprendre el plantejament lingüístic que hi ha en els diversos recursos de processament morfosintàctic.
  • Capacitat per formular els problemes lingüístics (en morfologia i sintaxi) que es plantegen.

2. Tecnologia

  • Capacitat per entendre el funcionament dels programes bàsics de processament morfosintàctic.
  • Capacitat per distingir entre els diferents tecnologies que s'usen habitualment.
  • Capacitat per escriure alguna gramàtica per al tractament parcial de la morfologia o la sintaxi.
  • Capacitat per entendre com amb els recursos estadístics adequats es poden resoldre processos d'anàlisi morfosintàctica.

Continguts

1. Dominar i comprendre les expressions regulars i els autòmats d'estats finits

  1. repàs de les expressions regulars,
  2. els autòmats d'estats finits

2. Comprendre el tractament computacional de la morfologia i l'ús de transductors d'estats finits

  1. repàs dels aspectes essencials de la morfologia,
  2. el lèxic i la morfotàctica
  3. les regles ortogràfiques
  4. l'anàlisi morfològica amb transductors d'estats finits.

3. Dominar i comprendre els models de llengua amb n-grames

  1. què i com comptem en els corpus lingüístics,
  2. n-grames simples ,
  3. smoothing i altres tècniques de millora dels models de n-grames.

4. Conèixer i entendre les diverses tècniques d'etiquetat de textos

  1. les etiquetes morfosintàctiques,
  2. l'etiquetat morfosintàctic
  3. problemes generals en l'etiquetat morfosintàctic

5. Les Gramàtiques Lliures de Context (CFG)

  1. repàs dels aspectes essencials de la sintaxi,
  2. les CFG,
  3. equivalència entre gramàtiques; la forma normal.

6. L'anàlisi amb les CFG

  1. l'anàlisi com a cerca
  2. l'anàlisi descendent
  3. l'anàlisi ascendent
  4. l'algorisme d'Early

7. Representació lingüística amb trets; la unificació

  1. estructures de trets i unificació d'estructures de trets
  2. les estructures de trets en la gramàtica
  3. la implementació de la unificació
  4. l'anàlisi amb restriccions d'unificació
  5. els tipus i l'herència

8. L'anàlisi probabilística

  1. CFG probabilístiques
  2. problemes de les CFG probabilístiques
  3. CFG probabilístiques lexicalitzades

Metodologia

docent

El curs està organitzat a base de:

    * 8 temes de teoria

    * 3 activitats pràctiques

Els temes de teoria estan organitzats de la següent manera:

    * En cada tema, els estudiants hauran d'estudiar i comprendre el material lliurat a la classe de teoria, juntament amb el capítol corresponent del llibre de Jurafsky i Martin.

    * Per tal de facilitar la comprensió del tema, es facilitarà una sèrie d'exercicis setmanals (opcionals) encaminats a subratllar alguns dels aspectes essencials del material d'estudi setmanal

Les pràctiques estan organitzades de la següent manera:

    * durant el curs es presentaran 3 pràctiques d'implementació que seran lliurades 2 o 3 setmanes després de la seva formulació

    * aquestes pràctiques seran lliurades:

          o durant el tema 2 (morfosintaxi i transductors)

          o durant el tema 4 (etiquetat morfosintàctic)

          o després del tema 5 (gramàtiques lliures de context)

Els fitxers amb les pràctiques seran penjats a Moodle i tindran sempre el nom de la forma següent: "practN_COGNOM_NOM", essent N el número de la pràctica (1, 2 o 3).

Les sessions de gran grup seran destinades a presentar i discutir els temes de teoria corresponents.

Les sessions de seminari seran destinades a comentar

    * dificultats sorgides en la lectura i estudi del tema de teoria corresponent

    * els exercics proposats com a complement dels temes de teoria

    * aspectes de cada una de les tres pràctiques proposades durant el curs

Avaluació

L'assignatura està organitzada de manera que els estudiants puguin aprovar-la seguint la progressió proposada a classe a través de les explicacions i discussions de classe i dels exercicis de les pràctiques.

L'avaluació es basarà en:

   * Activitat i participació a classe (incloent els exercicis que es fan a classe i els lligats a cada tema)

    * Lliurament de les 3 pràctiques proposades

    * Examen final

La nota final es calcularà a partir de la nota de l'examen (60%) i la nota de les tres pràctiques (30 %). La participació podrà augmentar la nota fins en un 10 %.

Què s'avaluarà

    * comprensió de les tècniques bàsiques per al tractament informàtic de la morfosintaxi

    * escriptura de gramàtiques

    * anàlisi de programes d'anàlisi morfosintàctica

Bibliografia recomanada

El llibre que seguirem més de prop a classe és:

    * Jurafsky, Daniel & Martin, James H. (2009), Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 2a edició. Prentice Hal

Altres llibres recomanables

    * Allen, James (1994), Natural Language Understanding. 2nd edition. Addison Wesley.

    * Coleman, John (2005), Introducing speech and language processing. Cambridge University Press.

    * Manning, Christopher D. & Schütze, Hinrich (1999), Foundations of Statistical Natural Language Processing. The MIT Press.