Curs 2007-2008
Enginyeria Tècnica en Informàtica de Sistemes
 
Tecnologies de la Informació (12459)
 

Descripció
Introducció als alumnes al coneixement de les diferències entre el model relacional, (o bases de dades transaccionals clàssiques) i les bases de dades documentals (i multimèdia en general). Comprensió del problema de classificació de documents i recerca aproximada per continguts. Estudi de les estructures de dades que permeten l'emmagatzematge i la recuperació de la informació. Estudi dels cercadors web i la seva problemàtica concreta.

Objectius
L'alumne ha de saber diferènciar entre el processat de dades estructurades (el que ha fet fins ara) i dades no estructurades, on la solució no és exacte sinó aproximada. Apendre a buscar una heurística que doni una bona solució en un temps raonable.

Temari

Tema 1: Introducció
(2h)
Recuperació de la informació versus Recuperació de dades.
Esquema general

Tema 2: Mètodes de recerca
(4h)
Booleana
Vectors
Probabilístic

Tema 3: Avaluació del resultat
(1h)

Tema 4: Refinament de les consultes
(2h)

- Realimentació a partir de les operacions de l'usuari
- Anàlisi local automàtic
- Anàlisi global automàtic

Tema 5: Processament del text (2h)
- Estudi sintàctic
- Paraules no rellevants
- Diferents formes d'una mateixa paraula
- Compressió

Tema 6: Índex i mètodes de recerca (4h)
- Fitxers invertits
- Arbres de sufixos
- Paralelisme
- Cerca de text

Tema 7 Aplicacions (2h)
- Biblioteques digitals
- Buscadors i metabuscadors Web

Tema 8: (2h)
- Indexació i recerca de documents multimèdia

Organització
A les sessions teòriques s'imparteix la teoria que cal aplicar per resoldre el projecte software que cal construir durant les sessions pràctiques.

Pràctiques
Les pràctiques tenen tres apartats: Classificació de documents, emmagatzematge i recuperació de la informació. Es fa la programació en Java i s'insisteix en un bona programació orientada a objectes. No s'usen més eines que les estructures de dades que proporciona Java, es demana però que s'en faci un ús racional.

Mètode d'avaluació
A través de les pràctiques (40%) i d'un examen (60%).

Bibliografia bàsica
RICARDO BAEZA-YATES, BERTHIER RIBEIRO-NIETO: Modern Infomation Retrieval, Adisson Wesley 1999.

Bibliografia complementària
MARK T. MAYBURY: Intelligent Multimedia Information Retrieval, The MIT Press. 1997 ISBN 0-262-63179-2. INFORMATION RETRIEVAL C. J. van RIJSBERGEN disponible en http://www.dcs.gla.ac.uk/Keith/Preface.html Managing Gigabytes. Ian H. Witten, Alistair Moffat, Timothy C. Bell. Morgan Kaufmann Publishers. 1999 isbn 1-55860-570-3