[AIB]

AIB. Commissione nazionale università e ricerca

AIB-WEB | Le Commissioni | Commissione università ricerca


The Digital Library
Challenges and solutions for the new millenium
Bologna, June 17-18, 1999

Practical Case Studies


Il progetto "Biblioteca Telematica Italiana" / Mirko Tavoni [*], Alberto Petrucciani [*]

  1. Che cos’è la Biblioteca Italiana Telematica; che cos’è il CIBIT
  2. La Biblioteca Italiana Telematica è una biblioteca digitale di testi rappresentativi della tradizione culturale italiana dal Medioevo al Novecento. È un progetto che nasce dalla cooperazione interdisciplinare di gruppi di ricerca operanti in 16 università italiane: gruppi di ricerca costituiti da studiosi di letteratura italiana, di storia della lingua italiana, di filologia umanistica, di storia, di storia delle idee politiche, della filosofia, della musica, ecc. Lo scopo primario del progetto è di costruire una grande biblioteca di consultazione in Internet al servizio della ricerca e della didattica; e, più ampiamente, al servizio della diffusione e promozione della lingua e cultura italiana nel mondo.

    Per realizzare questo progetto si è costituito, nel dicembre 1996, il CIBIT – Centro Interuniversitario Biblioteca Italiana Telematica.

    Il progetto si avvale della collaborazione, oltre che di studiosi a vario titolo di cultura italiana, di due categorie fondamentali di specialisti: cioè linguisti computazionali e biblioteconomi-bibliotecari.

    Il ruolo dei linguisti computazionali è di primaria importanza, perché un principio fondamentale su cui poggia il progetto è che l’intero patrimonio testuale della biblioteca sia reso interrogabile in rete con un motore di ricerca. Il motore di ricerca prescelto è appunto un motore di ricerca prodotto nell’ambito della linguistica computazionale, e già testato come strumento di gestione e di ricerca di ampi corpora testuali, cioè il DBT – Data Base Testuale elabrato da Eugenio Picchi presso l’Istituto di Linguistica Computazionale del CNR.

    Il ruolo dei biblioteconomi-bibliotecari – rappresentati principalmente da Alberto Petrucciani (coautore della presente relazione) e da Antonio Scolari, del Centro Servizi Bibliotecari dell’Università di Genova - è di fare di questa biblioteca telematica una vera biblioteca, e non solo un corpus di testi. Nel corso di questa relazione cercheremo di illustrare in che modo.

     

  3. Biblioteche digitali in formato immagine e in formato testo
  4. Nel Convegno Bibliothèques virtuelles: états des lieux tenutosi alla Biblioteca Nazionale di Parigi un anno fa (3-4 giugno 1998) – un vero summit fra biblioteche nazionali europee e nordamericane – si confrontarono fondamentalmente due approcci alla digitalizzazione dei patrimoni librari: la digitalizzazione dei documenti in formato immagine o in formato testo.

    In alcuni casi, in netta minoranza, i bibliotecari intervenuti attestarono il loro interesse per il formato testo. In particolare, il direttore della Biblioteca di Stato dell’Università di Göttingen, M. Elmar Mittler, si spinse a dire che la digitalizzazione in formato immagine non è che una tappa verso la digitalizzazione in formato testo, che costituirebbe quasi il vero fine dell’intero processo. Ma una valutazione di questo tipo non rappresentava certo il modo di sentire medio delle grandi biblioteche lì rappresentate e probabilmente delle biblioteche in generale. L’esempio che M. Mittler fece, della digitalizzazione del vocabolario di Grimm, che comporta non solo il riconoscimento ottico dei caratteri e il suo editing da parte dell’uomo, ma anche la segmentazione del testo in campi corrispondenti alle voci lessicali e alle loro parti, appare un interessante esempio di estensione dei compiti che una biblioteca può riconoscere come propri, ma al tempo stesso appare un esempio eccezionale, o almeno marginale.

    Nei grandi, e a volte immensi patrimoni digitali in via di costituzione presso le biblioteche nazionali e altre grandi biblioteche del mondo, ci sono sì insiemi di testi in formato testo, ma si tratta di insiemi ben più piccoli, e generalmente prodotti da instituzioni esterne alla biblioteca, istituzioni di ricerca, e poi riversati nel contenitore generale creato e gestito dalle biblioteche. È il caso, ci pare, dei testi prodotti dall’INALF (Institut nationale de la langue française) confluiti in Gallica. Ed è il caso degli incunaboli e delle cinquecentine della letteratura spagnola del progetto ADMYTE (Archivo digital de textos y manuscritos españoles), tutti dotati di trascrizione, prodotto per l’impulso determinante di filologi spagnoli (e segnatamente di Francisco Marcos Marín, che costituisce uno dei componenti del progetto Memoria Hispánica della Biblioteca Nazionale di Madrid. Ma si tratta di componenti limitate, all’interno di patrimoni digitali che nella loro massa sono costituiti da decine o centinaia di migliaia o addirittura da milioni di documenti in formato immagine.

    Il Presidente della Bibliothèque nationale de France Angrémy motivò questa scelta di fondo, spiegando che non si trattava solo di una questione di costi, ma anche e soprattutto di una scelta filosofica, a favore di una rappresentazione visuale delle caratteristiche del documento, che appare più in linea con i compiti dell’istituzione biblioteca. Questo appare perfettamente comprensibile, dato che appunto le biblioteche sono istituzioni che non trattano testi, ma documenti. Rendendo disponibili in Internet le immagini di milioni di documenti, corredate di schede catalografiche elettroniche e di potenti strumenti di ricerca nel catalogo, le grandi biblioteche mondiali rendono un servizio fondamentale alla diffusione della conoscenza e una enorme facilitazione alla ricerca.

    Vorremmo sottolineare, in modo complementare, le esigenze e la logica che guidano centri extra-bibliotecari come il nostro alla creazione di "biblioteche virtuali" non di documenti ma di testi, destinate a essere fruite a fini di ricerca e di didattica che portano sull’intero contenuto testuale, e per le quali dunque è essenziale la possibilità di sondare integralmente tale contenuto, e anzi sondare simultaneamente l’intero contenuto testuale del corpus o di suoi sottoinsiemi definibili dinamicamente dall’utente secondo i propri interessi di ricerca del momento.

    È chiaro che la nostra ottica è complementare, e in un certo senso inversa, rispetto a quella delle biblioteche, per le quali è fondamentale la digitalizzazione in formato immagine, eventualmente accompagnata dalla digitalizzazione in formato testo. Per noi, al contrario, è comunque fondamentale la digitalizzazione e una appropriata codifica in formato testo, eventualmente accompagnata dall’immagine del documento dal quale il testo è stato trascritto – se ne esiste uno - nel caso questo sia di particolare interesse culturale, storico o filologico, come nel caso di trascrizione di autografi, o di manoscritti o di edizioni antiche di particolare interesse scientifico.

    È del tutto logico che l’ottica delle grandi biblioteche e l’ottica dei centri di ricerca focalizzata su corpora testuali sia e resti distinta, ma a noi pare molto auspicabile che questi due tipi di soggetti, entrambi attivi nell’epocale trasferimento del patrimonio culturale nella dimensione digitale, trovino forme efficaci di collaborazione e integrazione.

    Cercheremo di darne più sotto alcuni esempi.

     

  5. Codifica e interrogazione dei testi (codifica SGML/TEI, motore di ricerca DBT)
  6. Perché l’intero contenuto di una biblioteca digitale di testi, o di un sottoinsieme di essi, sia utilmente interrogabile a fini di ricerca sono necessarie due cose: 1) che i testi siano codificati con una codifica di tipo logico permanente; 2) che la biblioteca digitale sia dotata di un potente motore di ricerca.

    La problematica della codifica di testi di carattere storico-letterario-filologico-linguistico è giunta a maturazione, nell’ambito Humanities and Computing, con la TEI (Text Encoding Initiative), che, a partire dal linguaggio SGML (Standard Generalized Markup Language), ha messo a punto uno standard di codifica estremamente dettagliato e adattabile a una grande varietà tipologica di testi di carattere appunto storico-letterario-filologico-linguistico. Un riconosciuto limite operativo della codifica TEI è peraltro la sua onerosità, alla quale è connessa la scarsità di software basati su di essa e al tempo stesso efficaci per prestazioni, efficienza e praticità.

    Senza poterci addentrare qui in questa problematica, basterà dire che la Biblioteca Italiana Telematica si cura di garantire la piena comunicabilità, in entrata e in uscita, del proprio patrimonio testuale con quelli di iniziative analoghe attraverso il comune riferimento allo standard SGML; e che

    si propone di valutare la struttura dei propri dati testuali, di studiarne i sistemi di codifica e le procedure di elaborazione allo scopo di integrarli nel sistema di codifica del progetto TEI basato sulle specifiche e sulle norme SGML. Tale standardizzazione dei testi e delle eventuali bibliografie si propone di rendere compatibile la Biblioteca con i principali progetti europei nel settore e di adattare gli strumenti esistenti e in fase di implementazione allo standard richiesto dalla notazione TEI.

    D’altro lato, caratteristica qualificante di questa biblioteca telematica nei confronti di altre esistenti è quella di proporsi come proprio fine specifico ed essenziale quello di offrire il proprio intero contenuto testuale in rete strutturato e direttamente interrogabile con potenti strumenti di ricerca in linea. Riteniamo che questa sia la nostra precipua missione nei confronti del mondo della ricerca e della didattica, e il nostro precipuo contributo alla utilizzazione intensiva, e dunque alla valorizzazione,, del patrimonio testuale della tradizione culturale italiana.

    È evidente che questo impone alla Biblioteca Italiana Telematica un impegno di elaborazione computazionale e di allestimento tecnologico non paragonabile con quello di biblioteche digitali che si limitino a offrire testi leggibili in Internet in formato html o scaricabili in formato testo.

    Il motore di ricerca scelto dal CIBIT a questo scopo è, come abbiamo detto, il DBT – Data Base Testuale, elaborato da Eugenio Picchi presso l’Istituto di Linguistica Computazionale del CNR di Pisa. Il rapporto strategico instaurato dal CIBIT con l’Istituto di Linguistica Computazionale è d’altronde funzionale anche alla prospettiva sopra ricordata sulla standardizzazione delle codifiche, dal momento che questo Istituto sta all’origine, dalla parte europea, del progetto TEI e in generale del movimento internazionale verso la standardizzazione, tanto che il suo direttore, il prof. Antonio Zampolli, coordina l'iniziativa europea incaricata di gestire il programma TEI (Text Encoding Initiative) e il progetto comunitario EAGLES (Expert Advisory Group on Language Engineering Standards).

    Per consentire l’utilizzazione più trasparente e più immediata di questo motore di ricerca in Internet, il DBT versione client-server (già realizzato da Lisa Biagini), che consente di interrogare un corpus in rete, è stato tradotto in applet Java (da Davide Merlitti). Ciò evita agli utenti di dover preliminarmente scaricare dalla rete sulla propria macchina il programma client, che per di più esiste solo per la piattaforma Windows, e consente invece di accedere direttamente a tutte le funzioni della biblioteca digitale col solo uso di un browser (quali Netscape Navigator o Microsoft Explorer), durante la navigazione in Internet, immediatamente e indipendentemente dalla piattaforma (Windows, Macintosh, Unix). È evidente come questa trasformazione tecnica sia di capitale importanza per allargare il numero dei fruitori potenziali ed effettivi.

    Per dare un’idea della potenza di ricerca di questo strumento di rete appositamente creato per il CIBIT, diamo qui alcuni esempi di interrogazione abbastanza complessa e mirata ad esigenze di ricerca proprie di diverse tipologie di studio (linguistico, letterario, di storia delle idee, ecc.).

     

  7. Strumenti di ricerca avanzati
  8. Gli esempi di ricerca ora mostrati si fondano sull’interrogazione per forme dei testi, cioè sulla semplice ricerca per stringhe di caratteri, combinabile attraverso i noti operatori booleani. Questo tipo di ricerca si applica per definizione a tutti i testi contenuti nella biblioteca, perché presuppone una codifica minimale dei testi stessi, cioè quella codifica che si applica necessariamente a tutti i testi in entrata nella biblioteca e che ne consente la gestione a tutti i livelli.

    Ma la Biblioteca Italiana Telematica contiene anche una "Area di ricerca avanzata" nella quale sono contenuti i testi che hanno ricevuto una codifica molto più approfondita, e che di conseguenza si offrono a una interrogazione molto più approfondita per quei particolari fenomeni che sono stati oggetto di codifica.

    Sono attualmente realizzati due tipi di codifica particolare, su due particolari insiemi di testi: una codifica capillare ed esaustiva delle categorie grammaticali, operata sul corpus delle opere di Dante (mirata a rendere disponibile in rete uno strumento di ricerca unico sulla lingua di Dante); e una codifica metrica altrettanto esaustiva di un corpus di poesia lirica costituito dal Canzoniere di Petrarca e da altri testi lirici dal Due al Quattrocento (mirata a rendere disponibile in rete uno strumento di ricerca unico sulla metrica della poesia italiana antica).

    Il progetto di codificazione grammaticale delle opere di Dante è realizzato da un gruppo di ricerca dell’Università di Pisa di cui è responsabile Mirko Tavoni; quello di codificazione metrica del corpus lirico pretrarchesco è realizzato da un gruppo di ricerca dell’Università di Pisa di cui è responsabile Pier Vincenzo Mengaldo.

    Diamo qui qualche esempio delle possibilità di ricerca offerte in questa "Area di ricerca avanzata".

     

  9. Una vera biblioteca (non solo un corpus)
  10. Vorremmo sviluppare il concetto, già anticipato, che la Biblioteca Italiana Telematica intende configurarsi come una vera biblioteca, con caratteristiche piuttosto differenti - e per molti versi più complesse – rispetto a un corpus testuale. Per evidenziare questo profilo può essere utile ripercorrere il progetto e lo sviluppo della Biblioteca Italiana Telematica sulla traccia delle classiche funzioni in cui si articola l'attività di una biblioteca non digitale.

     

  11. Formazione delle raccolte
  12. Dal punto di vista di ciò che in biblioteconomia va sotto l'etichetta di "costruzione (o formazione) delle raccolte", la Biblioteca Italiana Telematica ha incluso nei propri programmi la formulazione di una "politica" di accrescimento delle raccolte e di piani di "acquisizione" sistematica di testi - a partire dai classici della letteratura italiana - ma nello stesso tempo ci è sembrato indispensabile e fecondo rifarci a una caratteristica storicamente tipica delle grandi biblioteche di ricerca non digitali, l'essere luogo di aggregazione - e anzi spesso di attrazione - di raccolte specializzate formatesi, nell'istituto stesso o in precedenza, intorno a uno specifico progetto culturale, a un interesse di ricerca, a una vita di studio. Una componente, quindi, inevitabilmente non sistematica, per "tessere" indipendenti da un mosaico predefinito, ma non casuale, dato che la ricerca scientifica non può essere indirizzata e programmata dall'esterno ma nella sua libertà, che ne è carattere imprescindibile, disegna comunque frontiere e profili che si rivelano alla successiva indagine storico-culturale. L'esperienza delle biblioteche di ricerca non digitali mostra che le piste seguite da ricerche individuali o d'équipe possono favorire il raggiungimento di livelli di completezza e qualità di raccolte specializzate che difficilmente sono alla portata di programmi di acquisizione istituzionali e sistematici ma a largo spettro. Programmi che rimangono necessari, naturalmente, per garantire il raggiungimento di un buon livello di soddisfazione delle esigenze dell'utenza, costituita in questo caso da comunità molto ampie e diversificate riconducibili agli ambiti della ricerca, della didattica e della cultura, e per amalgamare le raccolte più specializzate.

    Tutta l’attività di costruzione della biblioteca nel primo biennio di attività è in effetti consistita in un coordinamento "federale" di gruppi di ricerca ognuno dei quali ha coltivato una distinta area di ricerca, risultante dunque nella costruzione di una specifica "collezione" omogenea e tendenzialmente completa al proprio interno. Ciò è vero per i progetti già ricordati su Dante e sulla lirica antica. Ciò è vero per gruppi di ricerca dedicati alla costruzione di una enciclopedia petrarchesca (Santagata, Pisa), di un corpus poetico rinascimentale (Quondam, Roma), di distinti nuclei storico-letterari (Stella-Albonico, Pavia; Carrai, Trento), di collezioni umanistiche latine (Albanese, Pisa), di documentazioni linguistico-letterarie regionali (Bruni, Venezia per il Veneto; Spampinato, Catania per la Sicilia); del corpus della "questione della lingua" (Marazzini, Vercelli), di un corpus di scritture mercantili e "itineranti" (Trifone, Siena), di corpora del pensiero politico (Baldini, Torino; Baroncelli, Genova; Borrelli, Napoli) e del pensiero giuridico (Mazzacane, Napoli).

    Di particolare interesse, per la collaborazione istituzionale a cui ha dato luogo, il progetto "I testi di Pisa in Internet", dedicato a costituire entro la Biblioteca Italiana Telematica una "collezione" contenente i testi rappresentativi - sotto il profilo linguistico, letterario, storico e artistico - della tradizione culturale pisana dal Medioevo al Novecento: progetto finanziato dal Comune di Pisa col duplice scopo di promuovere con una iniziativa culturale l’immagine di Pisa attraverso Internet, e di stimolare l’occupazione giovanile qualificata nel settore della valorizzazione dei beni culturali.

     

  13. Strumenti catalografici
  14. Se passiamo dalla formazione delle raccolte alla loro organizzazione, tralasciando gli aspetti più strettamente tecnici, ci sembra opportuno evidenziare le peculiarità che comporta l'allestimento di strumenti catalografici appropriati alle funzioni e alle raccolte della Biblioteca Italiana Telematica. Gli elementi informativi di cui l'apparato catalografico della Biblioteca Italiana Telematica deve render conto si possono in prima approssimazione ricondurre a tre "oggetti" di natura diversa:

    Se per il secondo di questi "oggetti" il punto di riferimento obbligato è costituito da standard e norme catalografiche in uso nelle biblioteche non digitali (ISBD, Regole italiane di catalogazione per autori, formato UNIMARC, ecc.), questi soccorrono solo in parte per il primo oggetto e abbastanza marginalmente per il terzo.

    In particolare, le informazioni relative al Testo richiedono, oltre ai dati tipici di archivi controllati di nomi (autori) e titoli largamente in uso nelle biblioteche non digitali, lo sviluppo di strumenti di selezione controllata dei generi e delle forme del discorso e di altri elementi d'interesse per la ricerca (data o periodo, località o area di provenienza, lingua/lingue). Per quanto riguarda generi e forme dei testi (con riferimento non alla sola letteratura in senso stretto, ma a qualsiasi ambito di discorso, dalle prediche ai trattati scientifici, dagli statuti ai ricettari) lo strumento più idoneo appare un thesaurus, o piuttosto un insieme di thesauri, da applicare però con modalità necessariamente differenziate rispetto a quelle tipiche dell'indicizzazione per soggetto. Non si tratta, infatti, di indicizzare documenti tramite i concetti di cui trattano, bensì sulla base delle caratteristiche formali e di genere, e le applicazioni di questo tipo in ambito bibliotecario sono ancora piuttosto marginali (codifica di particolari categorie di pubblicazioni nei formati bibliografici, thesauri per il libro antico e raro, thesauri per l'indicizzazione o la classificazione della narrativa, ecc.) e soprattutto orientate a grandi ripartizioni o a forme elementari di recupero dell'informazione piuttosto che alla selezione approfondita ma affidabile di un corpus testuale.

    Venendo infine al terzo degli "oggetti" di cui il catalogo della Biblioteca Italiana Telematica deve fornire evidenza, l'Edizione elettronica, è sufficiente qui ricordare che, accanto alle indicazioni di responsabilità e provenienza e alla caratteristiche tecniche del formato o formati disponibili, sono necessarie indicazioni sui trattamenti linguistici applicati al testo, anche ai fini di una corretta selezione e interrogazione nell'ambito dell'Area Ricerca avanzata, con il rinvio, per motivazioni e spiegazioni più dettagliate, alla corrispondente Nota al testo.

 

  1. Servizi offerti: "Area Lettura", "Catalogo", "Collezioni", "Area ricerca avanzata"
  2. Venendo dall'organizzazione della Biblioteca Italiana Telematica ai suoi servizi, ci sembra importante sottolineare che la Biblioteca Italiana Telematica stessa intende proporsi, attraverso la nuova interfaccia in corso di elaborazione, come una "biblioteca a più livelli", che prevede innanzitutto una "Area Lettura" e una "Area Ricerca avanzata" (o "computazionale", o "linguistica": le denominazioni sono ancora provvisorie e indicative).

    Le due Aree si riferiscono a modalità diverse di fruizione, che vanno dalla consultazione rapida di un testo noto, con una funzione di ricerca semplice e intuitiva, alla selezione ed interrogazione di uno o più testi con un ricco ventaglio di opzioni e di funzioni adeguate alle esigenze più sofisticate della ricerca in campo linguistico. Queste diverse modalità di fruizione non corrispondono necessariamente a tipologie diverse di utenza (utilizzazione didattica o consumo culturale da una parte, ricerca scientifica dall'altra), ma piuttosto ad esigenze e circostanze differenti. L'osmosi fra le due Aree – e quindi in particolare la possibilità per il comune lettore di sfruttare le potenzialità generalmente riservate a un pubblico di specialisti - è assicurata dall'omogeneità formale dell'interfaccia e dalla condivisione dei moduli relativi al Catalogo e alla selezione delle Collezioni (Sezioni ordinarie e Collezioni speciali).

    Il progetto prevede, infine, lo sviluppo progressivo degli strumenti tipici di una sala di consultazione: repertori biografici, bibliografici e iconografici, glossari, ecc.

     

  3. Integrazione con OPAC e altri strumenti di integrazione col sistema delle biblioteche
  4. La fruizione della Biblioteca Italiana Telematica non è concepita come alternativa alle altre modalità di accesso e di fruizione dei testi, e per questa ragione gli obiettivi del progetto comprendono diverse forme di integrazione con altri canali di circolazione, sia editoriali e commerciali sia bibliotecari. Basta pensare, innanzitutto, alla possibilità – per l'utente della Biblioteca Italiana Telematica – di accertare rapidamente, e per quanto possibile tramite trasparenti automatismi, dove e come potrebbe procurarsi copia dell'edizione di riferimento, per il suo corredo filologico e critico o semplicemente per una diversa modalità di fruizione.

    Ma il collegamento con gli OPAC delle biblioteche – a partire da quelli delle Università aderenti al CiBIT – appare interessante anche da altre due prospettive, per l'alimentazione della base dati catalografica della BIT e per la possibile integrazione delle raccolte della BIT stessa nei cataloghi delle biblioteche, come segnalazione all'utente di un servizio aggiuntivo comunque accessibile, anche se a distanza. Un servizio aggiuntivo che può consentire, per esempio, di individuare in quale opera (o in quale parte di un'opera già individuata) si trova il brano o l'espressione che si sta cercando, funzione che è ovviamente fuori dalla portata di un catalogo di biblioteca e, nella grande maggioranza dei casi, anche dei paratesti di corredo di un documento (indici).

    In questo spirito di integrazione rientra anche la sperimentazione, prevista dal progetto, di modalità di conversione di dati bibliografici fra gli standard classici di ambito bibliotecario (ISBD, formato UNIMARC) e quelli che si vanno affermando in rete (metadati, in particolare Dublin Core), anche nell'ottica di favorire la più larga collaborazione alla Biblioteca Italiana Telematica da parte di unità di ricerca con competenze filologiche e linguistico-computazionali piuttosto che biblioteconomiche e bibliografiche.



* Mirko Tavoni, Alberto Petrucciani
Università di Pisa, Progetto CIBIT

CIBIT - Via del Collegio Ricci, 10 - 56126 PISA
tel. +39 050 8000 256; fax +39 050 500 896
e-mail <tavoni@ital.unipi.it>



Copyright AIB 1999-09-30, a cura di Serafina Spinelli
URL: https://www.aib.it/aib/commiss/cnur/dlttavon.htm

AIB-WEB | Le Commissioni | Commissione università ricerca