Basi di Dati e Sistemi Informativi: Recupero di Documenti (BDR)



Orario del corso (2000/01)

Il corso fa parte del V anno del Corso di Laurea in Informatica, Università di Pisa, ed è attivato per il I semestre dell'Anno Accademico 2000/01, con inizio il 27.09.2000 e termine il 13.12.1999, con il seguente orario:
 
Giorno
Orario
Aula
Luogo
Lunedí
ore 16.00 -- 18.00
E
Polo Didattico "L. Fibonacci" (Via Buonarroti)
Mercoledí
ore 14.00 -- 16.00
E
Polo Didattico "L. Fibonacci" (Via Buonarroti)

Orario di ricevimento (2000/01)

Chi avesse intenzione di usufruire dell'orario di ricevimento è cortesemente invitato a telefonare in precedenza allo 050.3152892 per annunciare il proprio arrivo.
 
Giorno
Orario
Ufficio
Luogo
Lunedí
ore 14.00 -- 16.00
18
IEI-CNR
Mercoledí
ore 16.00 -- 18.00
18
IEI-CNR

Calendario degli esami (2001/02)

Con l'anno accademico 2001/02 il corso BDR non è più tenuto dal sottoscritto. Gli ultimi appelli in cui sarà quindi possibile sostenere l'esame di BDR col sottoscritto sono quelli di gennaio e febbraio 2002; in questi due appelli l'esame verrà sostenuto su appuntamento. Chi desiderasse sostenere l'esame nel 1 appello (dal 07.01.2002 al 23.01.2002) mi contatti per accordi entro e non oltre il 04.01.2002, mentre chi volesse sostenerlo nel 2 appello (dal 31.01.2002 al 15.02.2002) mi contatti per accordi entro e non oltre il 28.01.2002.


Testi dei compiti degli anni precedenti

 
Appello
I
II
III
IV
V
VI
1998/1999
Testo
Testo
Testo
Testo
[compito non svolto]
Testo
1999/2000
 Testo
Testo
 [compito non svolto]
 [compito non svolto]
 [compito non svolto]
 Testo

I compiti non svolti sono quelli ai quali non si è presentato alcun candidato.


Prerequisiti del corso

Nessuno. E' utile la conoscenza degli argomenti trattati nei corsi di Calcolo delle Probabilità e Statistica. Il corso presenta svariati punti di contatto con i corsi di Basi di Dati e Sistemi Informativi e Apprendimento Automatico.

Obiettivi del corso


Breve descrizione del corso in italiano

I motori di ricerca su WWW, quali AltaVista, Excite e Yahoo, sono l'odierna "punta dell'iceberg" dell'Information Retrieval, la disciplina che si occupa del progetto di sistemi per la ricerca di documenti in forma digitale. La caratteristica fondamentale di questa disciplina è l'impossibilità di formalizzare il concetto di "rilevanza di un documento a un bisogno informativo". Il corso introdurrà quindi un insieme di tecniche per il progetto di "motori di ricerca", incentrate su modelli quantitativi per la determinazione del grado, o della probabilità, di rilevanza di un documento a un bisogno informativo.

Breve descrizione del corso in inglese

WWW search engines such as AltaVista, Excite and Yahoo are the "tip of the iceberg" of Information Retrieval, the discipline that deals with the design of systems for the search of documents in digital form. The fundamental trait of this discipline is the inherent impossibility of formalising the notion of "relevance of a document to an information need". This course will thus present a number of techniques for the design of search engines; these techniques revolve around quantitative models for the estimation of the degree, or of the probability, of relevance of a document to an information need.

Programma del corso (25 ore)

  1. Introduzione (5 ore).
  2. Modelli dell'Information Retrieval e relative funzioni di matching (7 ore).
  3. Tecniche di Information Retrieval testuale (6 ore)
  4. Temi ``avanzati'' di Information Retrieval (7 ore).


Programma delle esercitazioni (6 ore) - Umberto Straccia

  1. Motori di ricerca per WorldWideWeb.
  • Programma dei seminari (5 ore)
    1.  
      Titolo
      Relatore
      Data e ora
      Lucidi
      Tecniche di clustering per documenti testuali
      Franca Debole
      22 novembre 2000, ore 14.00
      .pdf
      Interfacce utente e problemi di visualizzazione nell'IR
      Natalina Grasso
      22 novembre 2000, ore 15.00
      .pdf
      Tecniche di compressione per il testo
      Claudia Deangeli
      4 dicembre 2000, ore 14.00
      .pdf
      Tecniche di indicizzazione di immagini
      Antonio Palumbo
      4 dicembre 2000, ore 15.00
      .pdf
      Strutture dati in memoria secondaria per text retrieval
      Elisabetta Olivelli
      11 dicembre 2000, ore 14.00
      .pdf

    Riferimenti bibliografici


    Materiale didattico

    Fotocopie dei lucidi utilizzati durante le lezioni sono disponibili presso la Copisteria Speedy, Via S. Lorenzo. I lucidi utilizzati nelle esercitazioni di Umberto Straccia sono disponibili all'indirizzo http://faure.iei.pi.cnr.it/~straccia/ftp/BDR/WebSearch.pdf
  • Avvertenza. Si ricorda che il Centro di Calcolo del Dipartimento di Informatica non autorizza la stampa di materiale didattico presso le proprie strutture (vedi comunicato del direttore del CDC). Il materiale didattico qui contenuto può quindi essere scaricato unicamente per la visualizzazione o per la stampa con mezzi propri.

  • Tesi di Laurea disponibili

    Vorrei segnalare a chi fosse interessato che sono disponibile a seguire lavori di tesi nel settore dell'information retrieval e, in particolare, della categorizzazione automatica di documenti. L'invito si indirizza in particolare alle persone che sono a pochi esami (<4, possibilmente anche meno) dalla tesi, e che hanno trovato di proprio interesse gli argomenti trattati nel corso BDR. E' titolo preferenziale avere anche seguito il corso di apprendimento automatico. Le tesi abbracciano in genere l'intero ciclo progetto-implementazione-sperimentazione.

    Chi fosse interessato è invitato a consultare la pagina dei temi disponibili e a contattarmi per un colloquio preliminare.



    Last updated: Friday, December 3, 2004