[AIB]AIB Notizie 4/2003
AIB-WEB | AIB Notizie | Sommario fascicolo 4/2003


La presentazione del sistema ECHO al CNR di Pisa:
indicizzazione e ricerca di materiale audiovisivo

Roberto Raieli

Il 20 e il 21 gennaio 2003, presso l’Area della Ricerca del CNR di Pisa, il Digital Library Competence Center ha organizzato un corso per la presentazione e la prova pratica del sistema avanzato di indicizzazione e ricerca di materiale audiovisivo denominato ECHO

Il D-Lib Competence Center (http://dlibcenter.iei.pi.cnr.it) è un programma finanziato dall’IST Programme dell’Unione Europea e coordinato dall’ISTI del CNR di Pisa; il centro organizza corsi gratuiti che hanno lo scopo di offrire un’esperienza diretta di nuove infrastrutture per le biblioteche digitali tramite l’uso di prototipi di servizi innovativi, relativamente ad argomenti quali ad esempio il self-publishing, l’accesso ad archivi digitali aperti, la cooperazione bibliotecaria digitale. Nell’ambito di tali piani formativi sono state organizzate due giornate di presentazione del sistema ECHO, European CHronicles On-line (http://pc-erato2.iei.pi.cnr.it/echo), messo a punto dai ricercatori dell’Area di Pisa, offrendo così la possibilità di constatare lo stato di evoluzione delle tecnologie di MultiMedia Information Retrieval e di provare il funzionamento di un sistema italiano di indicizzazione e ricerca audiovisiva applicabile alle nostre biblioteche e mediateche.
Scopo del corso è stato presentare le basi teoriche del MultiMedia Information Retrieval e dunque illustrare le metodologie e le tecniche avanzate per la progettazione, la costituzione e la gestione di biblioteche digitali audio-video. La sperimentazione pratica si è basata sull’uso del sistema ECHO, implementato per fornire un servizio di biblioteca digitale per documentari storici. Il sistema permette di indicizzare e recuperare il materiale audiovisivo utilizzando trascrizioni della colonna sonora parlata generate automaticamente, caratteristiche del visivo estratte automaticamente e metadati complessivi elaborati sia automaticamente sia manualmente.
La parte teorica del corso è stata illustrata da Pasquale Savino, uno dei ricercatori del CNR che hanno elaborato il progetto. È stato anzitutto presentato il concetto di digital library, definendola come “raccolta organizzata” di documenti digitali, quali testi, immagini, suoni e video, nonché come insieme di strumenti e servizi per l’accesso a tali documenti, quali i sistemi di selezione, organizzazione, ricerca e recupero, ma anche di preservazione e protezione, del patrimonio digitale.
Ribadita la centralità dei documenti audiovisivi e multimediali nel sistema comunicativo dell’odierna società dell’informazione, sono stati poi esposti alcuni dati indicativi del cambiamento che si impone ai moderni database audiovisivi nei confronti dei database testuali tradizionali. Ad esempio, le televisioni producono circa 50 milioni di ore di video l’anno, sarebbe quindi necessario uno spazio di archiviazione di circa 25.000 TB di dati contro i 200 TB occorrenti per l’archiviazione dei dati relativi alla produzione testuale annua di quotidiani e periodici. Consegue la misura della difficoltà relativa alla circolazione veloce e utile di tale quantità di dati. Si intende infine la centralità di precisi e funzionali sistemi automatici di estrazione e ricerca di dati rappresentativi del complesso contenuto degli audiovisivi.
Così, si conclude, le digital video libraries devono essere molto più complesse delle tradizionali digital libraries, essere il prodotto di diverse tecnologie incrociate ed essere dotate di sistemi specializzati per l’indicizzazione e il recupero della specifica tipologia dei dati audiovisivi. Non si deve però dimenticare la necessità di integrare le tecnologie per l’analisi automatica delle immagini, dei suoni, del parlato, della ripresa e degli stacchi di montaggio, con i ben più sensibili sistemi manuali di analisi e indicizzazione del documento audiovisivo.
Anche nei confronti dell’utente molto deve cambiare, e il sistema di approccio ai database audiovisivi deve essere riformulato sulla base delle nuove più complesse esigenze di definire la query con dati visivi e sonori e non soltanto con dati testuali. Alle tradizionali interfacce dei database testuali, che consentono la ricerca tramite tesauro o free text in un indice composto esclusivamente di termini estratti dai documenti o inseriti in metadati testuali, si devono sostituire interfacce che consentano di formulare le query in diverse dimensioni, non solo tramite i termini ma anche attraverso le immagini e i suoni, effettuando poi la ricerca in indici composti da testi estratti dalle didascalie o dal parlato, da immagini chiave di una sequenza, da volti “noti”, da semplici figure, da melodie, da forme, colori e suoni, senza in ciò escludere l’importanza che continuano a mantenere i dati, testuali, descrittivi o classificatori di aspetti non specificamente audiovisivi del documento.
In sostanza, ai tradizionali sistemi di indicizzazione e ricerca text-based, comunque basati sull’uso di termini descrittori, si devono sostituire progrediti sistemi di archiviazione e recupero content-based, dove i “descrittori” saranno veri metadati, volta per volta della stessa natura dei dati cui si riferiscono, e di cui possono consentire nel modo più funzionale l’analisi e la ricerca.
Passando in specifico ai database audiovisivi in oggetto, sono state anzitutto chiarite le caratteristiche rilevanti dei documenti in essi contenuti. Un audiovisivo può essere considerato dal punto di vista della parte audio, delle singole inquadrature o immagini che lo compongono, oppure delle sequenze di girato o di montato, e da ognuno di questi elementi possono essere estratte informazioni utili per l’indicizzazione e la ricerca.
Scopo del progetto ECHO è giungere a un ottimo livello di analisi e indicizzazione di tutti gli elementi rilevanti di un documento audiovisivo, per consentire non solo una più agevole e precisa gestione dell’archivio di dati ma anche una maggiore potenzialità di ricerca e recupero. L’indicizzazione automatica è più veloce ed esatta di quella manuale, indipendente dall’interpretazione del catalogatore, con meno possibilità di errori, ma non sempre effettuabile fino in fondo, laddove è necessaria l’interpretazione semantica dei contenuti, dei significati, o l’estrazione di informazioni non ricavabili direttamente dal video, come la data di produzione, gli autori, i protagonisti. Ottimo invece può essere il risultato dell’indicizzazione automatica nell’estrazione di dati quali le posizioni dei fotogrammi, la risoluzione, singole immagini, le forme e i movimenti di dati oggetti, i movimenti di macchina, il riconoscimento di alcuni volti, la cattura di varie scritte e le trascrizioni del parlato. Dunque, sia le informazioni estraibili automaticamente sia quelle estraibili solo manualmente, magari con il supporto di strumenti precisi, devono completarsi a vicenda per garantire all’utente finale le maggiori possibilità di ricerca e recupero.
Riguardo le potenzialità di ricerca e recupero di un ottimo sistema di video retrieval, l’attenzione va rivolta alla quantità di chiavi e strumenti di ricerca che possono essere messi in relazione nel corso di una query. Possono essere usati in combinazione i metadati estratti automaticamente e quelli introdotti manualmente, così le query si possono esprimere sia tramite dati associati al video intero, come titoli o soggetti, sia associati a singole sequenze, quali scritte in sovrimpressione o frasi parlate, o a singoli fotogrammi, come volti o figure, proponibili al sistema con modelli esterni di esempio. Il recupero si baserà su approssimazioni di similarità tra i dati della query e quelli relativi ai video, il ranking sarà basato sul grado di vicinanza di tali dati, il “rumore” o la “perdita di informazione” dovranno essere bilanciati da strumenti di feedback o di raffinamento della query.
Prima di descrivere il modello di ECHO sono stati presentati altri sistemi di video retrieval che sono anche stati riferimenti iniziali del progetto del CNR. Greenstone (http://www.mkp.com/DL), dell’Università di Waikato in Nuova Zelanda, appare come un sistema abbastanza tradizionale, che gestisce i video come documenti elettronici non specificamente strutturati e in cui l’indicizzazione e la ricerca sono basati su metadati, principalmente testuali, associati all’intero documento. Informedia (http://www.informedia.cs.cmu.edu), della Carnegie Mellon University, e soprattutto Virage (http://www.virage.com), della Virage Inc., possono essere invece descritti come sistemi avanzati, in grado di usare i contenuti effettivi dei video come base per l’indicizzazione e la ricerca, dotati di sistemi di indicizzazione automatica, arricchiti da interfacce per gli utenti che consentono di usare diversi strumenti per un’efficace video query content-based.
Il sistema ECHO nasce da un progetto finanziato nell’ambito del V Programma Quadro dell’Unione Europea. Il progetto, avviato nel febbraio 2000 e che si completerà a marzo 2003, ha come obiettivi la costruzione di una digital library di vecchi documentari, la messa a punto di un sistema avanzato di video retrieval e la sperimentazione di questi sistemi con l’utenza media. Partner del progetto sono enti, istituti di ricerca e aziende di software. Attualmente il sistema contiene circa 200 ore di video documentari, scelti nelle raccolte di quattro archivi nazionali italiani e divisi in cinque classi tematiche principali: le guerre mondiali, il dopoguerra, gli sport del XX secolo, la vita quotidiana contemporanea, la cultura europea.
Caratteristiche principali del sistema sono le infrastrutture software audio e video sviluppate per la gestione di una ricca biblioteca multimediale, la messa a punto di un modello di metadati apposito per gli audiovisivi, un sistema di accesso via Web all’intero archivio, un tesauro multilingue per consentire la ricerca in una qualunque delle principali lingue europee. Tra le caratteristiche avanzate, ECHO è dotato di un sistema di speech recognition multilingue tarato per i vecchi documentari, un modulo per consentire la ricerca multilingue anche sulle trascrizioni audio, un modulo per l’analisi e il riconoscimento di singoli oggetti, un modulo per il riconoscimento dei volti, un sistema di recupero per similarità di inquadrature e immagini, un meccanismo di creazione automatica di indici delle sequenze basato sulle inquadrature più rappresentative.
Il modello di metadati per la descrizione dei documenti può includere automaticamente i dati estraibili dal sistema e consente attraverso uno specifico editor di correggere eventuali imprecisioni nonché di aggiungere le informazioni estraibili manualmente. Esso è stato sviluppato sulla base del modello FRBR, distribuendo i dati su quattro entità principali: Work, che rappresenta le informazioni generali sull’opera audiovisiva; Expression, che raccoglie i dati relativi alla specifica realizzazione; Manifestation, che è il livello in cui viene riportata la forma fisica del documento; Item, nel quale si trovano i dati relativi a un singolo esemplare del documento. Il modulo per il retrieval consente infine, attraverso un’interfaccia per l’utente semplice e intuitiva, di effettuare la ricerca nel sistema combinando diverse funzioni: il free-text per la ricerca nelle informazioni testuali, nei titoli e nel trascritto della traccia sonora, il tesauro per la ricerca nei soggetti, la tree-structure per la ricerca nelle classi, il supporto multilingue, la similarity search per l’utilizzo di campioni visivi di immagini e fotogrammi.
Dopo la presentazione teorica, Pasquale Savino ha descritto il processo di progettazione e costruzione del sistema di digital library ECHO, illustrando con esempi pratici le fasi del processo, le caratteristiche del materiale digitalizzato nel database, la struttura dei diversi moduli e le scelte operative.
Giuseppe Amato e Claudio Gennaro, gli altri due autori del progetto ECHO, si sono poi occupati della sperimentazione pratica del sistema, di illustrare il modulo per la creazione dei metadati e guidarne l’utilizzo, di guidare infine le prove di indicizzazione e ricerca nel sistema.
Gli studi intorno al multimedia information retrieval e al video retrieval hanno cominciato a proliferare circa una decina d’anni fa negli Stati Uniti, e tra i precursori il sistema dell’IBM QBIC (http://wwwqbic.almaden.ibm.com) è sempre stato quello tecnologicamente più sviluppato. In Europa l’interesse per l’argomento si è sviluppato più tardi, e tra i risultati più rilevanti si pone il sistema VIPER (http://viper.unige.ch) dell’Università di Ginevra; ma in Italia, a parte il vecchio programma GRIM-DBMS sempre del CNR di Pisa, e il prototipo JACOB (http://www.csai.unipa.it/research/projects/jacob) dell’Università di Palermo, non vi sono stati sforzi rilevanti in questo settore. Il progetto ECHO vivifica sicuramente con un grosso impulso la ricerca italiana verso lo sviluppo di database di audiovisivi tecnologicamente avanzati e veramente utili a tutti i generi di utenza, e poiché ben presto un sistema di video retrieval non sarà più di interesse solo specialistico o sperimentale ma, come oggi i database testuali, sarà lo strumento indispensabile della gestione e dell’accesso al nostro patrimonio culturale, allora avremo bisogno di apparecchiature e tecnologie di questo genere nelle nostre biblioteche e mediateche, e sarà importante poterci rivolgere direttamente ai nostri tecnici e alle nostre aziende di software.
Il progetto ECHO si concluderà nel marzo 2003, ma potrebbe continuare nell’ambito del VI Programma quadro. Alla conclusione dell’attuale progetto, il D-Lib Center ha già in programma, probabilmente ad aprile, di organizzare un altro corso per la presentazione dello stato e del funzionamento del sistema.

raieli@uniroma3.it


Bibliografia di riferimento

Amato, Giuseppe [et al. ]. A metadata model for historical documentary films. In: Proceedings of the 4th European Conference ECDL 2000. Lisbona, 2000.
Bolle, Ruud M. [et al. ]. Video Query: research directions. «IBM Journal of research and development», 42 (1998), n. 2, p. 233-252.
ECHO user requirement report. ECHO project deliverable D1.2.1, 2000. http://pc-erato2.iei.pi.cnr.it/echo/workpackages/wp1.html.
Grosky, William I. Managing multimedia information in database systems. «Communications of the ACM», 40 (1997), n. 12, p. 73-80.
Image and video databases: visual browsing, querying and retrieval, edited by Alberto Del Bimbo. «Journal of visual languages and computing». 7 (1996) n. 4 (speciale).
Raieli, Roberto. Il sistema del visual retrieval. «Bollettino AIB», 41 (2001), n. 1, p. 47-68.
Raieli, Roberto. MultiMedia information retrieval. «Biblioteche oggi», 19 (2001), n. 10, p. 16-28.
Rorvig, Mark E. A method for automatically abstracting visual documents. «Journal of the American Society for Information Science», 44 (1993), n. 1, p. 40-56.
University of Columbia, New York. Columbiàs content-based visual query project. http://www.ee.columbia.edu/˜sfchang/vis-project.

RAIELI, Roberto. La presentazione del sistema ECHO al CNR di Pisa: indicizzazione e ricerca di materiale audiovisivo
.
«AIB Notizie», 15 (2003), n. 4, p. 13-15.
Copyright AIB, ultimo aggiornamento 2003-05-01 a cura di Franco Nasella
URL: http://www.aib.it/aib/editoria/n15/03-04raieli.htm

AIB-WEB | AIB Notizie | Sommario fascicolo 4/2003