Lingüística computacional 2

  

Nom de l'assignatura

Lingüística computacional 2

Codi

31396

 

Estudis

Màster en Lingüística teòrica i aplicada

Curs i període en el que s'imparteix

Segon trimestre

Crèdits ECTS

5

Llengua en què s'imparteix

Català

Horari

Gran Grup: dilluns 19:00-20:30

Seminari: dimecres 17-18     

Professorat de l'assignatura

Toni Badia

correu electrònic: [email protected]

  

Objectius

Aquest curs té com a objectiu bàsic donar a conèixer les tècniques principals de tractament computacional de la morfologia i la sintaxi. L'assignatura, doncs, ofereix un recorregut per diversos tractaments de la morfologia, l'etiquetat, i l'anàlisi sintàctica.

És requisit per a seguir aquest curs haver superat les assignatures de formació bàsica en:

    * programació i estadística:

          - Fonaments de la programació

          - Introducció a la Lingüística Computacional

          - Programació

          - Estadística

    * morfologia i sintaxi:

          - Morfologia

          - Sintaxi

 

L'objectiu fonamental d'aquesta assignatura és aprendre les tècniques principals que s'utilitzen en el tractament computacional de la morfologia i la sintaxi, és a dir, en el tractament dels mots i de les cadenes de mots que formen les frases.

 

Competències generals

Capacitat d'analitzar un text en el seu sentit general.

Capacitat d'identificar els recursos lingüístics utilitzats per l'autor

Capacitat d'identificar els recursos estilístics utilitzats per l'autor

Capacitat d'aprenentatge autònom

Capacitat de prendre decisions i justificar-les

Capacitat de recerca documental

 

Competències específiques

1. Lingüística

·         Capacitat de comprendre el plantejament lingüístic que hi ha en els diversos recursos de processament morfosintàctic.

·         Capacitat per formular els problemes lingüístics (en morfologia i sintaxi) que es plantegen.

2. Tecnologia

·         Capacitat per entendre el funcionament dels programes bàsics de processament morfosintàctic.

·         Capacitat per distingir entre els diferents tecnologies que s'usen habitualment.

·         Capacitat per escriure alguna gramàtica per al tractament parcial de la morfologia o la sintaxi.

·         Capacitat per entendre com amb els recursos estadístics adequats es poden resoldre processos d'anàlisi morfosintàctica.

 

Continguts

1. Dominar i comprendre les expressions regulars i els autòmats d'estats finits

         1. repàs de les expressions regulars,

         2. els autòmats d'estats finits

2. Comprendre el tractament computacional de la morfologia i l'ús de transductors d'estats finits

         1. repàs dels aspectes essencials de la morfologia,

         2. el lèxic i la morfotàctica

         3. les regles ortogràfiques

         4. l'anàlisi morfològica amb transductors d'estats finits.

3. Dominar i comprendre els models de llengua amb n-grames

         1. què i com comptem en els corpus lingüístics,

         2. n-grames simples ,

         3. smoothing i altres tècniques de millora dels models de n-grames.

4. Conèixer i entendre les diverses tècniques d'etiquetat de textos

         1. les etiquetes morfosintàctiques,

         2. l'etiquetat morfosintàctic

         3. problemes generals en l'etiquetat morfosintàctic

5. Les Gramàtiques Lliures de Context (CFG)

         1. repàs dels aspectes essencials de la sintaxi,

         2. les CFG,

         3. equivalència entre gramàtiques; la forma normal.

6. L'anàlisi amb les CFG

         1. l'anàlisi com a cerca

         2. l'anàlisi descendent

         3. l'anàlisi ascendent

         4. l'algorisme d'Early

7. Representació lingüística amb trets; la unificació

         1. estructures de trets i unificació d'estructures de trets

         2. les estructures de trets en la gramàtica

         3. la implementació de la unificació

         4. l'anàlisi amb restriccions d'unificació

         5. els tipus i l'herència

8. L'anàlisi probabilística

         1. CFG probabilístiques

         2. problemes de les CFG probabilístiques

         3. CFG probabilístiques lexicalitzades

 

 

Metodologia

docent

El curs està organitzat a base de:

    * 8 temes de teoria

    * 3 activitats pràctiques

 

Els temes de teoria estan organitzats de la següent manera:

    * En cada tema, els estudiants hauran d'estudiar i comprendre el material lliurat a la classe de teoria, juntament amb el capítol corresponent del llibre de Jurafsky i Martin.

    * Per tal de facilitar la comprensió del tema, es facilitarà una sèrie d'exercicis setmanals (opcionals) encaminats a subratllar alguns dels aspectes essencials del material d'estudi setmanal

 

Les pràctiques estan organitzades de la següent manera:

    * durant el curs es presentaran 3 pràctiques d'implementació que seran lliurades 2 o 3 setmanes després de la seva formulació

    * aquestes pràctiques seran lliurades:

          o durant el tema 2 (morfosintaxi i transductors)

          o durant el tema 4 (etiquetat morfosintàctic)

          o després del tema 5 (gramàtiques lliures de context)

Els fitxers amb les pràctiques seran penjats a Moodle i tindran sempre el nom de la forma següent: "practN_COGNOM_NOM", essent N el número de la pràctica (1, 2 o 3).

 

Les sessions de gran grup seran destinades a presentar i discutir els temes de teoria corresponents.

Les sessions de seminari seran destinades a comentar

    * dificultats sorgides en la lectura i estudi del tema de teoria corresponent

    * els exercics proposats com a complement dels temes de teoria

    * aspectes de cada una de les tres pràctiques proposades durant el curs

 

 

Avaluació

L'assignatura està organitzada de manera que els estudiants puguin aprovar-la seguint la progressió proposada a classe a través de les explicacions i discussions de classe i dels exercicis de les pràctiques.

 

Els estudiants seguiran un pla individual d'avaluació pactat entre cada estudiant i el professor.

L'avaluació es podrà basar en:

   * Activitat i participació a classe (incloent els exercicis que es fan a classe i els lligats a cada tema) + Lliurament de les 3 pràctiques proposades + Examen final (en aquest cas, la nota final es calcularà a partir de la nota de l'examen (60%) i la nota de les tres pràctiques (30 %). La participació podrà augmentar la nota fins en un 10 %)

   * Treball d'assignatura que consistirà en un estat de la qüestió, l'anàlisi d'un programa, la creació d'un programa, o un estudi específic en l'àrea de la morfosintaxi computacional + Activitat i participació a classe (en aquest cas, el treball pot formar part del pla d'investigació de l'estudiant (relacionat amb el contingut del treball de fi de màster o amb el pla de formació doctoral)

 

Què s'avaluarà

    * comprensió de les tècniques bàsiques per al tractament informàtic de la morfosintaxi

    * escriptura de gramàtiques

    * anàlisi de programes d'anàlisi morfosintàctica

 

 

Bibliografia recomanada

El llibre que seguirem més de prop a classe és:

    * Jurafsky, Daniel & Martin, James H. (2009), Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 2a edició. Prentice Hal

Altres llibres recomanables

    * Allen, James (1994), Natural Language Understanding. 2nd edition. Addison Wesley.

    * Coleman, John (2005), Introducing speech and language processing. Cambridge University Press.

    * Manning, Christopher D. & Schütze, Hinrich (1999), Foundations of Statistical Natural Language Processing. The MIT Press.