2006-2007

Enginyeria en Informàtica (3371)


Tecnologies de la Informació(12459) 


Descripció

Introducció als alumnes al coneixement de les diferències entre el model relacional, (o bases de dades transaccionals clàssiques) i les bases de dades documentals (i multimèdia en general). Comprensió del problema de classificació de documents i recerca aproximada per continguts. Estudi de les estructures de dades que permeten l'emmagatzematge i la recuperació de la informació. Estudi dels cercadors web i la seva problemàtica concreta.

Objectius

L'alumne ha de saber diferenciar entre el processat de dades estructurades (el que ha fet fins ara) i dades no estructurades, on la solució no és exacte sinó aproximada. Apendre a buscar una heurística que doni una bona solució en un temps raonable.  

Temari

Tema 1: Introducció (2h)

Recuperació de la informació versus Recuperació de dades.

Esquema general

Tema 2: Mètodes de recerca (4h)

-Booleana

-Vectors

-Altres

Tema 3: Avaluació del resultat (1h)

- Estudi sintàctic

- Unicode

- Paraules no rellevants

- Diferents formes d'una mateixa paraula

- Compressió

Tema 4: Processament del text (2h)

- Estudi sintàctic

- Unicode

- Paraules no rellevants

- Diferents formes d'una mateixa paraula

- Compressió

Tema 5: Índex i mètodes de recerca (4h)

- Fitxers invertits

- Arbres de sufixos

- Paral·lelisme

- Cerca de text

Tema 6 Aplicacions (2h)

-Biblioteques digitals

- Buscadors i metabuscadors Web

Tema 7: Refinament de les consultes (2h)

- Realimentació a partir de les operacions de l'usuari

Tema 8: (2h)

- Indexació i recerca de documents multimèdia

Organització

A les sessions teòriques s'imparteix la teoria que cal aplicar per resoldre el projecte software que cal construir durant les sessions pràctiques.  

Pràctiques

Les pràctiques tenen tres apartats: Classificació de documents, emmagatzematge i recuperació de la informació. Es fa la programació en Java i s'insisteix en un bona programació orientada a objectes. No s'usen més eines que les estructures de dades que proporciona Java, es demana però que se'n faci un ús racional.  

Mètode d'avaluació

A través de les pràctiques (20%) i d'un examen que consta de preguntes sobre les pràctiques (20%) i de teoria(60%). A setembre no hi ha pràctiques sinó només preguntes sobre les pràctiques a l'examen per tant l'examen de setembre consta de preguntes sobre les pràctiques (40%) i de teoria(60%).

Bibliografia

Bibliografia bàsica

RICARDO BAEZA-YATES, BERTHIER RIBEIRO-NIETO: Modern Infomation Retrieval, Adisson Wesley 1999.

Bibliografia complementària

MARK T. MAYBURY: Intelligent Multimedia Information Retrieval, The MIT Press. 1997 ISBN 0-262-63179-2.

INFORMATION RETRIEVAL C. J. van RIJSBERGEN disponible en http://www.dcs.gla.ac.uk/Keith/Preface.html

Managing Gigabytes. Ian H. Witten, Alistair Moffat, Timothy C. Bell. Morgan Kaufmann Publishers. 1999 isbn 1-55860-570-3

 

Darrera actualització 24-11-2010
© Universitat Pompeu Fabra, Barcelona