[AIB]

AIB. Commissione nazionale università e ricerca

AIB-WEB | Le Commissioni | Commissione università ricerca


The Digital Library
Challenges and solutions for the new millenium
Bologna, June 17-18, 1999

Standards and Protocols


Uno standard per il deposito legale delle pubblicazioni online / Giovanni Bergamin [*]

Leggere e capire l'informazione in formato digitale richiede un determinato insieme di strumenti: un determinato hardware e un determinato software. Data la continua evoluzione sia dell'hardware che del software può accadere che quell'insieme di strumenti non sia più disponibile nel giro di pochi anni dalla sua introduzione sul mercato. E' questo - secondo il famoso Rapporto della Task force on archiving digital information [1] del 1996 - il cuore del problema della conservazione dell'informazione digitale.

1. Conservazione e strategie

Vorrei partire da tre casi reali di conservazione dell'informazione digitale. Il primo riguarda la Biblioteca Nazionale francese che ha recentemente firmato un contratto con la società DIGIPRESS per trasferire due terabyte di dati da 2200 DAT a 3500 CD ROM. Non si tratta di comuni CD, ma di Century Disc (CD in vetro temperato, rivestiti di oro e alluminio e da una lega di nichel e rame) con la caratteristica di resistere a quasi tutti i possibili disastri ambientali e a temperature che con valori non usuali (da -150 a +350), oltre che naturalmente garantire una longevità che - come dice il nome - va oltre il secolo. Quei due terabyte di informazioni raccolgono il risultato di un progetto di digitalizzazione di oltre 86000 volumi (25 milioni di pagine) costato alla Nazionale francese oltre 13 milioni di dollari. Il Century Disc - si legge nel sito web della società francese che lo produce - è oggi usato con successo da molte società nazionali e internazionali. Tra le società citate troviamo l'ANDRA (l'agenzia francese responsabile dello smaltimento delle scorie radioattive) [2].

Il riferimento all'ANDRA è l'occasione per una prima riflessione. La conservazione dell'informazione digitale non è solo un problema di eredità culturale (solo dei musei, degli archivi e delle biblioteche), è anche un problema di sopravvivenza: il monitoraggio globale dei cambiamenti ambientali, la localizzazione dei depositi e i dati sulle scorie radioattive sono esempi di informazioni che dipendono sempre più dall'affidabilità e dalla stabilità nel tempo dell'informazione digitale [3].

Il secondo caso riguarda invece una biblioteca italiana: la Biblioteca Nazionale Centrale di Firenze. In questa biblioteca sta per concludersi un rilevante progetto basato sul recupero dell'informazione digitale. Si tratta del progetto CUBI [4]: oltre 600.000 record bibliografici relativi alla produzione editoriale italiana dal 1886 al 1957, immessi su schede perforate negli anni '60, sono stati convertiti e tra non molto potranno essere fruibili anche all'interno della rete del Servizio Bibliotecario Nazionale. I bit del CUBI sono passati quindi dalle schede perforate ai nastri magnetici IBM per migrare poi, a trent'anni di distanza, in un database.

Il terzo e ultimo caso ci porta fuori dal mondo delle biblioteche. Esiste una comunità di sviluppatori software molto attiva che si occupa di creare emulatori in grado di far rivivere nei moderni computer videogiochi creati per macchine di una ventina di anni fa (ATARI, Commodore 64 ecc.). Centinaia di siti Web offrono gratuitamente emulatori quali ad esempio MAME (Multiple Arcade Machine Emulator) in grado di emulare un buon numero di piattaforme [5].

I tre casi citati costituiscono esempi concreti di strategie di conservazione dell'informazione digitale.

Con la prima si raggiunge l'obiettivo "di mantenere i bit in buona salute [6]" mediante tecniche quali il salvataggio, la copia a scadenze programmate dei dati da supporti a rischio in nuovi e più stabili supporti, il controllo dell'integrità dei file ecc. Non si tratta tuttavia di una strategia di per sé in grado di garantire la conservazione: se viene a mancare il software e l'hardware in grado di poter assicurare l'accesso al contenuto non sapremo come utilizzare quei bit per quanto integri e in buona salute (qualcuno suggerisce di conservarli comunque in attesa che venga trovata la relativa Stele di Rosetta).

Con la seconda tecnica i documenti digitali subiscono nel tempo una conversione di formato (ovvero delle regole grazie alle quali i bit sono in grado di veicolare significato): non appena un formato sta per essere non più supportato, opportuni programmi convertono i dati in un nuovo e più stabile formato. Per attuare questa strategia sono necessarie conoscenze molto dettagliate sul formato di partenza. La migrazione risulta molto utile quando quello che si intende recuperare è il contenuto informativo dei documenti più che il loro contesto originario, ma ha come controindicazione la possibile perdita di informazioni.

La terza strategia è nota con il nome di emulazione. Non si tratta di una tecnica nuova. Ancora oggi usiamo personal computer che emulano il comportamento di terminali (emulazione hardware). Il sostenitore più noto di questa strategia è Jeff Rothenberg [7]. Secondo Rothenberg occorre trovare una soluzione aperta che una volta disegnata possa essere applicata in maniera uniforme a tutti i tipi di documenti riducendo al minimo l'intervento umano. L'emulazione hardware sembra la tecnica più promettente. Con questa tecnica documentando l'hardware attuale (per esempio un personal computer con architettura Intel) sarà possibile disegnare specifiche per la costruzione di un emulatore in grado di poter operare su un computer del futuro. Su quel computer potremo, ad esempio, installare Windows 98, Office e finalmente aprire un file Powerpoint. Al contrario della migrazione questa tecnica mantiene il contesto originario che in molti casi è inseparabilmente legato al contenuto (si pensi ad esempio ad un CD multimediale).

Tra i sostenitori delle ultime due strategie (migrazione ed emulazione) è in corso in questi mesi un dibattito molto vivace [8], anche se tutti riconoscono che in fatto di conservazione dell'informazione digitale siamo ancora in assenza di standard e protocolli consolidati nonché di strategie adeguatamente provate [9]. In altre parole - spiega Tommaso Giordano - "siamo ancora in alto mare" aggiungendo che "qualunque soluzione non potrà attuarsi che in un'ottica di cooperazione su larga scala" [10].

Oltre alle strategie appena citate ne esistono altre quali il museo della tecnologia e la conversione del digitale su supporto cartaceo. La prima è una strada molto costosa e che comunque non ci assicura il lungo termine: è una strategia che può essere facilmente messa in crisi dalla mancanza ad esempio di un pezzo di ricambio hardware. Ad ogni modo non sembra che qualcuno abbia investito ingenti risorse in questa strategia.

Più curiosa è invece la strategia della conversione del digitale su supporto cartaceo. Si tratta naturalmente di una strategia paradossale visto che il ricorso alla digitalizzazione dei supporti cartacei è motivato in molti casi da preoccupazioni di conservazione. La Cobblestone Software ha sviluppato un prodotto chiamato PaperDisk che con la tecnica del codice a barre ad alta densità è in grado di stampare su carta il contenuto binario di qualsiasi file (delle sequenze di zero e di uno che costituiscono l'informazione digitale). Per recuperare l'informazione basta munirsi di uno scanner. Si tratta naturalmente di una versione molto originale del Century Disc che come quella non affronta (e non intente affrontare) il problema della fruibilità del contenuto di quella informazione [11].

2. Un formato universale

La fruibilità nel tempo del contesto e del contenuto dell'informazione è invece affrontata dall'UPF (Universal Preservation Format) [12]. L'iniziativa UPF nasce negli ambienti della SMPTE (Society of Motion Picture and Television Engineer) e nel marzo di quest'anno è arrivata al completato della prima fase di ricerca con la pubblicazione di due documenti: UPF user requirements e UPF Technical Requirements.

L'architettura dell'UPF prevede brevemente i seguenti elementi: un Wrapper , una Rosetta Stone, un Unique Identifier e un Media Compiler .Il Wrapper contiene il file (o i file) da conservare con l'aggiunta di informazioni catalografiche identificative (o - come si dice oggi - metadata).La Rosetta Stone è invece la registrazione in un formato indipendente dalle varie piattaforme hardware e software dell'algoritmo per decodificare i file contenuti nel Wrapper. Lo Unique identifier assicura l'integrità dell'archivio, mentre il Media compiler si occupa delle funzionalità di fruizione dei dati. [13]

L'UPF è stato criticato per un assunto fondamentale: la pretesa da parte di questo standard tecnologico di durare per sempre [14]. Tuttavia - scrive Thom Shepard presentando l'UPF nel numero di Aprile di D-Lib Magazine - più che la proposta di uno nuovo standard, l'UPF è un tentativo di dimostrare che il problema dell'integrità dell'informazione e dei dati nel tempo è un problema così importante e così variegato da non poter essere affrontato da una singola disciplina [15].

3. Un libro elettronico che le biblioteche possono prestare e conservare

E' di qualche giorno fa la pubblicazione del draft di uno standard che porta l'acronimo EBX: Electronic Book Exchange System [16]. Si tratta - si legge nell'introduzione - delle specifiche tecniche per un sistema di applicazioni e dispositivi interoperabili finalizzato alla produzione e alla diffusione di libri elettronici chiamati "e book". Alla definizione delle specifiche hanno contribuito tra gli altri: Adobe, Coalition for Networked Information, Helwett Packard, Hitachi, HarperCollins, Microsoft, Philips e Xerox.

I principi del sistema si basano sulla definizione delle necessità delle categorie di utenti coinvolte: i consumatori, i librai, gli editori, gli autori e le biblioteche. Queste ultime vengono definite nel glossario come organizzazioni che acquistano libri (e book) dagli editori e li prestano ai propri utenti .

Secondo il Gruppo di lavoro EBX l'utente ha bisogno di un libro che sia almeno equivalente come funzionalità al libro a stampa. Il libro elettronico deve avere i requisiti di interoperabilità (non deve essere necessario l'acquisto di un dispositivo particolare per la lettura) e di durata nel tempo (dovrà poter essere letto anche da dispositivi del futuro). Avere in prestito un libro elettronico da una biblioteca, prestarlo ad un amico, vendere i propri libri ad un negozio di libri usati, sono altre caratteristiche che gli utenti si aspettano da un e book.

Gli editori vogliono ridurre i costi di produzione: passare dalla carta alla plastica - come nel caso dei CD ROM - non è vista come una soluzione ottimale. Inoltre sia gli editori che gli autori desiderano che vi siano forme di protezione del loro lavoro.

Infine le biblioteche si aspettano di poter prestare il libro all'utente e che l'utente possa usare liberamente parte del contenuto (fair use o personal use): una recente ricerca rivela che circa il 60 per cento degli utenti americani si serve del servizio di prestito delle biblioteche. Ancora, alcune biblioteche hanno la necessità di assicurare un accesso a lungo termine alle loro raccolte e il libro elettronico deve assicurare, in questo caso, qualcosa di più che una licenza temporanea. Né si può chiedere alla biblioteche di mantenere nel tempo dispositivi (hardware e software) specifici per ogni libro.

Le assunzioni di base del Gruppo di lavoro sono le seguenti. L'utente in generale preferisce leggere libri off-line, mentre tutta la distribuzione del libro elettronico dovrà essere in rete e il ricorso a un supporto fisico (per esempio al CD ROM) nella catena di distribuzione viene visto come un ostacolo da evitare. Internet e il Web sono l'infrastruttura convincente per i produttori e per gli utenti del libro elettronico.

Qualche accenno allo scenario che il Gruppo di lavoro EBX prefigura. Attraverso un sistema di credenziali (quali la crittografia con chiave pubblica) l'utente può catturare il libro dalla rete o averlo tramite e-mail. Per leggerlo potrà usare il dispositivo che crede (personal computer, palmare, dispositivi particolari con schermo al plasma ecc.). Può prestarlo ad un amico. Se l'amico si dimentica di restituirlo entro la data prevista, il libro torna "magicamente" al suo legittimo proprietario. L'utente non si deve preoccupare per il backup dei file relativi ai suoi e book. In caso di malaugurati disastri hardware con relativa perdita di file, l'utente può comunque riprendere il suo libro dalla rete. Le biblioteche possono prestare e assicurare il fair use e, inoltre, sono in grado di ottenere licenze illimitate nel tempo a scopo di conservazione. Fare un uso improprio del libro è molto difficile: conviene acquistarlo o farselo prestare da una biblioteca o da un amico.

E' troppo presto per dire se lo standard proposto avrà successo. Quello che occorre notare è che l'EBX, pur provenendo dal mondo dei produttori hardware e software, prende in conto anche le esigenze di accesso a lungo termine delle biblioteche e riporta in primo piano il concetto di fair use anche nel mondo dell'editoria elettronica.

4. Uno standard ISO: OAIS

Anche le biblioteche nazionali europee stanno seguendo attivamente il problema della conservazione delle risorse elettroniche. Il progetto europeo NEDLIB [17] ha l'ambizione di creare una infrastruttura di base che si faccia carico del deposito delle pubblicazioni elettroniche. Secondo quanto si legge nella presentazione del progetto, si ritiene che gli obiettivi di NEDLIB facciano parte integrante delle finalità delle biblioteche nazionali: assicurare che le pubblicazioni elettroniche di oggi possano essere usate anche in futuro.

Seguendo l'esempio di altri progetti nazionali quali CEDARS nel Regno Unito e PANDORA in Australia, anche NEDLIB ha deciso di seguire il modello OAIS. Si tratta precisamente delle raccomandazioni, ormai giunte alla quinta versione, dal titolo Reference model for an Open Archival Information System (OAIS) [18]. Il modello OAIS (si tratta di un draft ISO) non è non nato per le biblioteche, ma è stato elaborato per la soluzione di problemi legati alla conservazione dei dati elettronici relativi alla esplorazione dello spazio (NASA). Lo standard ha comunque obiettivi di tipo generale: trovare un consenso diffuso su un modello di archivio in grado di assicurare la conservazione nel tempo dell'informazione digitale.

Il funzionamento del modello si può ricavare dalla sezione 3 dove si elencano le responsabilità di un archivio OAIS (ne cito solo alcune):

  1. Negoziare e accettare l'informazione (selezione e acquisizione);
  2. Ottenere il controllo dell'informazione fornita a un livello tale da assicurare la conservazione a lungo termine;
  3. Seguire pratiche e procedure documentate in maniera tale da assicurare che le informazioni siano conservate e possano essere diffuse come copie autentiche o rapportabili all'originale;
  4. Rendere l'informazione disponibile attraverso norme pubbliche che indichino le modalità e gli eventuali vincoli di accesso.

Naturalmente il modello OAIS non dà soluzioni tecnologiche al problema della conservazione (migrazione o emulazione), ma propone appunto un modello (sia per la migrazione che per l'emulazione) al quale le tecnologie dovranno fare riferimento.

Partendo da OAIS, NEDLIB - che vede coinvolta la maggior parte delle nazionali europee fino alla fine del 2000 - intende sviluppare e sperimentare un sistema che prenda in conto tutte le fasi del sistema di deposito delle pubblicazioni elettroniche:

  1. l'acquisizione (ingest);
  2. l'archiviazione (archival storage);
  3. il trattamento dei dati (data management);
  4. la gestione amministrativa (administration);
  5. l'accesso (access).

In ognuna di queste fasi è necessaria la creazione e la gestione di tutte le informazioni necessarie (metadata) affinché l'archivio sia in grado di far fronte alle responsabilità sopra ricordate.

Una difficoltà rilevata anche dal progetto NEDLIB è la mancanza di una tassonomia sviluppata e consolidata per le diverse tipologie di pubblicazioni digitali [19] (dal CD a un sito Web dinamico come quello della CNN, da un documento PDF all'Home Page di una istituzione , da un database a un periodico elettronico ecc.). Solo come esempio di difficoltà classificatoria cito il caso di questa mia relazione che usa, ad esempio, il termine elettronico come sinonimo di digitale (mentre nel titolo si parla di online). Se diamo per consolidata la differenza tra elettronico (più ampio e comprendente anche ad esempio le cassette VHS) e digitale, il termine online deriva invece da una classificazione basata sul supporto necessario alla diffusione di un determinato contenuto: si dice di solito che una pubblicazione su CD ROM è una pubblicazione off- line, ma un CD ROM può essere messo in rete (essere quindi una pubblicazione online ...).

La scelta del termine online nel titolo di questa relazione vuole semplicemente mettere in rilievo la contrapposizione tra risorse informative disponibili in maniera sempre crescente in rete e l'inadeguatezza dei nostri strumenti (quali il deposito legale) abituati da molto tempo a fare i conti con risorse informative locali e controllabili a livello locale [20]. Tra l'altro anche il CD ROM è locale solo come "pezzo di plastica": quanto al suo controllo occorre ricordare che una pubblicazione su CD condivide con le altre risorse elettroniche (digitali) tutti i problemi di conservazione che sono stati delineati. Tuttavia, grazie al fatto di essere apparentemente più controllabile, alcune legislazioni (come ad esempio quella francese) prevedono il deposito legale delle pubblicazioni su CD ROM, mentre - a quanto mi risulta - non vi sono ancora paesi con un quadro normativo analogo per le pubblicazioni online.

5. Lavori in corso

Molte biblioteche nazionali sono oggi in una fase di avanzata sperimentazione. La Nazionale australiana con il progetto PANDORA si è occupata soprattutto della conservazione delle pubblicazioni liberamente disponibili su Internet (si parla di Internet publications). Due risultati del progetto sono sicuramente da segnalare: una stima dei soli costi di cattura o harvesting (cinque volte quelli necessari all'acquisizione di un libro a stampa) e la pubblicazione di linee guida per la selezione delle pubblicazioni online da archiviare [21].

La Nazionale finlandese ha in corso un analogo progetto: EVA. Il problema della conservazione di queste risorse, data la varietà delle tipologie sopra ricordata, viene affrontato per passi successivi. La collaborazione con chi produce le risorse viene vista come un fattore determinante. Tuttavia, se questa manca, le soluzioni proposte sono di tipo pratico: "se una pubblicazione non può essere convertita con costi ragionevoli in un formato adatto alla conservazione, quella pubblicazione non va acquisita. [22]".

La Biblioteca Nazionale olandese sta preparando una gara europea per dotarsi di una struttura in grado di garantire un sistema di deposito per tutte le pubblicazioni elettroniche olandesi. Si ipotizza che il sistema dovrà essere in grado di gestire almeno 6 terabyte nei prossimi tre anni [23].

Per l'Italia (che - come è noto - è in attesa da tempo di una nuova normativa che regoli il deposito legale anche per le pubblicazioni a stampa) occorre segnalare il progetto EDEN, voluto dall'Ufficio Centrale per i Beni Librari, che prevede la sperimentazione del deposito volontario delle pubblicazioni su CD ROM presso la Biblioteca Nazionale Centrale di Firenze [24].

6. Un nuovo modello

Indubbiamente sta crescendo la sensibilità anche al di fuori del mondo delle biblioteche per strumenti in grado di garantire l'accesso a lungo termine dei prodotti dell'editoria elettronica ed è ragionevole ritenere che - anche in questo campo - le biblioteche nazionali continueranno ad avere un ruolo fondamentale. Per raggiungere l'obiettivo del lungo periodo le biblioteche nazionali da sole non bastano: potranno esercitare le responsabilità sopra ricordate solo se vi sarà un alto livello cooperazione sia con chi crea e pubblica le risorse (autori editori ecc.), sia con chi si occupa dei supporti di diffusione e fruizione (hardware e software). Inoltre la complessità e la varietà nonché la quantità delle risorse digitali da controllare fanno ritenere necessaria una forte cooperazione tra biblioteche: il modello di archivio coordinato e distribuito è uno dei modelli proposti nella sezione 6 delle raccomandazioni OAIS.


NOTE

[1] Preserving Digital Information: Final Report and Recommendations May 20, 1996 in <http://www.rlg.org/ArchTF/>: "Reading and understanding information in digital form requires equipment and software, which is changing constantly and may not be available within a decade of its introduction. Who today has a punched card reader, a Dectape drive, or a working copy of FORTRAN II? Even newer technology such as 9-track tape is rapidly becoming obsolete. We cannot save the machines if there are no spare parts available, and we cannot save the software if no one is left who knows how to use it."

[2] Informazioni sul Century Disc e sul contratto tra la DIGIPRESS e la Biblioteca nazionale francese in <http://www.digipress-fr.com/html/press.html>.

[3] Margaret Hedstrom, Digital preservation: a time bom for digital libraries in <http://www.uky.edu/~kierman/DL/hedstrom.html>.

[4] Per le origini del progetto CUBI si veda Gina Risoldi Candoni e Fulvia Farfara, Dalla scheda centralizzata all'automazione della BNI: un cammino comune fra catalogo unico e bibliografia in Il linguaggio della bilioteca: scritti in onore di Diego Maltese, Milano: Bibliografica, 1994, pp. 451-452.

[5] Si veda ad esempio: <http://mame.retrogames.com>.

[6] Lex Sijtsma, Archiving electronic documents, ELAG 99 in <http://www.konbib.nl/persons/lex/el99wg3a.htm>.

[7] Jeff Rothenberg, Avoid technological quiksand: finding a viable technical solution for digital preservation, 1998 [ma 1999] in <http://www.clir.org/pubs/reports/rothemberg/contents.html>.

[8] Oltre al saggio citato di Rothenberg si veda David Bearman, Reality e chimeras in the preservation of electronic records in <http://www.dlib.org/dlib/april99/bearman/04bearman.html>.

[9] Margaret Hedstrom, Digital preservation .. cit.

[10] Tommaso Giordano, Biblioteche digitali: la nuova frontiera della cooperazione, in "Bollettino AIB", 1998, n. 3, pp. 270-271.

[11] Il software PaperDisk è disponibile come shareware in <http://www.paperdisk.com>.

[12] Informazioni sullo standard UPF in <http://info.wgbh.org>.

[13] Thom Shepard, Presentation to the Music Library Association 02-13-98 in <http://info.wgbh.org/upf/slides/MLAtext.html>.

[14] David Bearman, Reality e chimeras ... cit.

[15] Thom Shepard, Universal Preservation Format, in <http://www.dlib.org/dlib/april99/04clips.html>.

[16] La versione 0.5 - Maggio 1999 - del draft è reperibile in formato PDF in <http://www.ebxwg.com>.

[17] Informazioni sul progetto in <http://www.konbib.nl/nedlib>.

[18] Reference model for an Open Archival Information System, White book, Issue 5, April 21. 1999 in <http://ssdoo.gsfc.nasa.gov/nost/isoas/ref_model.html>.

[19] Margaret Phillips, Preservation of Internet publications in <http://www.nla.gov.au/nla/staffpaper/www7mep.html>.

[20] Si veda Riccardo Ridi, Il retaggio multimediale fra hardware, software e politiche culturali, 9. Seminario Angela Vinay, in <http://www.aib.it/aib/sezioni/veneto/ridi.htm>.

[21] Guidelines for the selection of online Australian publications intendet for preservation by the National library of Australia in <http://www2.nla.gov.au/scoap/guidelines.html>.

[22] Kirsti Lounamaa e Inkeri Salonhariju, EVA: the acquisition and archiving of electronic network publications in Finland, in <http://hul .helsinki.fi/tictolinja/0199/evaart.html>.

[23] <http://www.konbib.nl>.

[24] Il testo dell'accordo tra l'Ufficio Centrale per il Beni Librari e le associazioni degli editori si può trovare in <http://www.bncf.firenze.sbn.it/Progetti/edi_ele/home.htm>.



* Giovanni Bergamin
Biblioteca Nazionale Centrale
Piazza Cavalleggeri, 1 - 50122 FIRENZE
tel. 055/2491.9219; fax 055/2342.482
e-mail giovanni.bergamin@bncf.firenze.sbn.it

Copyright AIB 1999-10-6, a cura di Serafina Spinelli
URL: http://www.aib.it/aib/commiss/cnur/dltberga.htm

AIB-WEB | Le Commissioni | Commissione università ricerca