[AIB]AIB Notizie 1/2001
AIB-WEB | AIB Notizie | Sommario fascicolo 1/2001

Trovare l'ago nel pagliaio...

di Elisabetta Poltronieri

«Library collections, acquisitions, and technical services» è edita dalla Elsevier Science (http://www.elsevier.com/locate/lcats/) e accoglie contributi sulle tematiche legate allo sviluppo e alla gestione delle collezioni. In questo ambito cura uno spettro di argomenti molto vasto che investe tutti gli aspetti tecnici dei servizi di biblioteca relativi all'acquisizione e alla diffusione dei fondi documentari.

Nella ricerca delle risorse in rete permane la difficoltà di avvalersi di un approccio sistematico al recupero dell'informazione. L'articolo di Kuang-Hwei Lee-Smeltzer dal titolo Finding the needle: controlled vocabularies, resource discovery, and Dublin Core, apparso su «Library collections, acquisitions, & technical services» 24 (2000) p. 205-215, mette a fuoco la problematica di una applicazione dei vocabolari controllati alla ricerca in Internet.
La premessa da cui muove la tesi dell'autore è la constatazione dell'esistenza di una massa sconfinata e lievitante di informazione sotto forma di pagine Web che non giunge ad essere indicizzata per intero. Nonostante, infatti, lo sforzo congiunto dei più comuni motori di ricerca e di strumenti più raffinati che operano tramite categorie tematiche gerarchizzate, resta sensibile la percentuale di contenuti presenti in rete non ancora identificati e pertanto non fruibili.
La soluzione Dublin Core (DC) prospetta un metaformato per la descrizione standardizzata di qualsiasi tipo di informazione in rete e rappresenta un punto fermo di incontestata affermazione nell'identificazione dei dati. Essa agisce opponendo a schemi complessi e dettagliati come i formati bibliografici MARC pacchetti di elementi meno articolati.
In un breve tracciato storico, l'articolo ripercorre la genesi e lo sviluppo del sistema DC, a partire dalla sua definizione in occasione di un seminario sui metadati sponsorizzato da OCLC nel 1995. Il nucleo di base del Dublin Core (DC simple) prevede 15 elementi di descrizione, opzionali e ripetibili, mentre la versione più articolata (qualified DC) consente l'impiego di qualificatori degli elementi di base per caratterizzare ad un maggior grado di dettaglio i documenti in rete.
Come noto, il tratto innovativo di questo formato, che ha guadagnato crescente consenso internazionale proprio per la sua versatilità, è la sua applicazione da parte degli stessi produttori dell'informazione in Internet, per mezzo di software intelligenti. L'utilizzazione diretta da parte di chi genera risorse in rete ne ha suggellato infatti i caratteri di semplicità e interoperabilità. Inevitabilmente però, soprattutto sul piano del recupero per contenuto, la mancanza di una rigida struttura di inserimento dei dati compromette l'efficacia della ricerca per soggetto. Di qui lo studio mirato all'applicazione di vocabolari controllati (schemi di classificazione o liste di intestazioni per soggetto) nel formato DC per cercare di eguagliare i risultati dei sistemi di indicizzazione collaudati, messi in atto a opera di esperti sia nei cataloghi automatizzati che nelle basi di dati.
Nella scala dei tentativi verso un recupero mirato dell'informazione, la struttura gerarchizzata per larghe fasce di argomento adottata da alcuni portali in Internet rappresenta sicuramente un salto di qualità rispetto alla ricerca di termini isolati nel testo dei documenti, come quella attivata tramite la digitazione di singole parole chiave. Il traguardo resta tuttavia lontano da un'analisi concettuale del documento che continua a porsi in tutta la sua problematicità se si considera l'inarrestabile divenire delle risorse in rete.
L'auspicato dominio dell'universo Internet per mezzo di vocabolari controllati può essere tuttavia un obiettivo raggiungibile con sufficiente ottimismo. Una prima soluzione propone la stessa logica applicata dalle biblioteche nella costituzione dei propri fondi; il materiale documentario da raccogliere e catalogare è selezionato in base alla mission della singola istituzione. Parimenti, non tutto il contenuto della rete deve essere necessariamente scandagliato e consegnato all'utente, ma solo quella porzione che si renderà rispondente alla politica di sviluppo delle collezioni di una biblioteca, non diversamente da quanto avviene per i supporti a stampa. Il problema di una valida indagine sotto il profilo semantico rimane, ma riguarderà una percentuale ridotta di informazione. Le risorse di interesse, una volta identificate e trattate, entrano così nel flusso delle descrizioni bibliografiche che, grazie agli adeguamenti della normativa catalografica e del formato MARC, offrono crescente ospitalità alle fonti esistenti in rete. È indubbio, comunque, che la creazione di records siffatti continua a richiedere notevole esperienza tecnica, molto più di quanto esiga l'adozione dello standard DC codificato in HTML o XML, linguaggi condivisibili da una comunità assai più estesa di quella di estrazione bibliotecaria.
Va aggiunto che i records realizzati in Dublin Core direttamente dai fornitori di informazione in rete si prestano facilmente ad essere integrati con simboli di classificazione e intestazioni di soggetto la cui individuazione rappresenta l'impegno più consistente per il bibliotecario. Inoltre, sul modello del WorldCat realizzato da OCLC, si prospetta l'istituzione effettiva di un catalogo cooperativo in rete delle risorse elettroniche descritte in differenti formati, tra cui principalmente DC e MARC, esportabili nei cataloghi locali. Obiettivo ultimo rimane quello di promuovere l'applicazione dello standard DC negli ambienti che sviluppano i motori di ricerca commerciali per la ricerca in rete. In questa direzione può esercitare un peso decisivo l'implementazione della descrizione per metadati avviata ormai da numerose istituzioni (soprattutto biblioteche nazionali) che hanno sviluppato sia nel Nord America che in Europa svariati progetti di sviluppo del formato DC.
Resta il fatto che l'applicazione dei linguaggi controllati costituisce un traguardo difficile da ottenere per l'informazione distribuita su larga scala in Internet. Per ora nessun programma di computer, per quanto evoluto, può riprodurre le funzioni intellettuali che presiedono all'assegnazione dei termini di un vocabolario controllato. Risultati accettabili potrebbero scaturire dallo sviluppo di sistemi di attribuzione automatica delle voci, una prospettiva ipotizzabile con il progresso dell'intelligenza artificiale applicata al trattamento del linguaggio naturale. La ricerca in questo ambito è approdata a diversi modelli, come quelli legati alla linguistica computazionale e ai modelli neuronali che si stanno rivelando molto promettenti. In questa direzione è prevista la messa a punto di programmi in grado di generare codici di classificazione e descrittori da sottoporre poi al vaglio di esperti. Un esempio di applicazione del genere ci proviene ancora una volta dalla galassia OCLC che utilizza Scorpion, un software impiegato per l'indicizzazione delle risorse Web registrate nella base dati NetFirst.
Altri strumenti progettati per ordinare le risorse in rete sono sistemi di interfaccia (subject gateways) che veicolano le ricerche per soggetto in Internet su determinate aree disciplinari, come ad esempio ADAM nel campo dell'arte, del disegno e dell'architettura (http://www.adam.ac.uk/adam/index.html) e OMNI (http://omni.ac.uk) per i siti di interesse medico. Si tratta pur sempre di sistemi che si avvalgono dell'intervento umano nell'indicizzazione dei documenti, ma che offrono comunque un accesso facilitato all'informazione operando sulla rete come su una grande biblioteca virtuale.
Un'ulteriore via d'accesso alle risorse elettroniche in rete per mezzo dei linguaggi controllati è rappresentata dai thesauri ondine. Il progetto "Entry Vocabulary Modules" dell'Università di Berkeley (http://www.sims.berkeley.edu/research/metadata/) ha sperimentato un metodo di associazione automatica dei termini di ricerca espressi nel linguaggio naturale con quelli presenti in diversi schemi di linguaggi controllati e in terminologie sconosciuti agli utenti, ma largamente usati nelle basi di dati.
Si intensifica dunque l'elaborazione di sistemi che offrano le maggiori garanzie di recupero mirato dei documenti in rete, in costante adesione al principio della rilevanza dei dati. In parallelo, è nuovamente invocata l'iniziativa dei bibliotecari in stretta collaborazione con gli esperti di automazione nel settore dell'indicizzazione.


POLTRONIERI, Elisabetta. Trovare l'ago nel pagliaio.... «AIB Notizie», 13 (2001), n. 1, p. 9-10.
Copyright AIB, ultimo aggiornamento 2001-02-10 a cura di Gabriele Mazzitelli
URL: http://www.aib.it/aib/editoria/n13/01-01poltronieri.htm

AIB-WEB | AIB Notizie | Sommario fascicolo 1/2001