[AIB-WEB] Associazione italiana biblioteche. Congresso 1999

Standard delle fonti elettroniche

Alessandra Citti, Università di Bologna
Identificare gli articoli: SICI e il progetto CASA

Al Centro Interbibliotecario dell'Università di Bologna abbiamo iniziato ad interessarci al codice SICI lavorando al progetto CASA (a Cooperative Archive of Serials and Articles) un progetto Europeo che si propone, fra l'altro, di costituire una sorta di metacatalogo di periodici e delle loro parti costituive, ossia dei fascicoli e degli articoli. Oltre al metacatalogo, CASA offrirà all'utente finale una interfaccia amichevole per l'accesso ad informazioni su servizi disponibili per i periodici, quali

L'interfaccia di CASA consentirà all'utente finale di spostarsi da un qualunque punto del circuito informativo (ad esempio da un profilo di ricerca ad articoli alla localizzazione delle testate in cui sono stati pubblicati), senza la pretesa di offrire i servizi di document delivery o di indicizzazione, ma semplicemente creando dei legami, che permettano all'utente, professionale e non, di vedere quali servizi sono disponibili per un articolo/fascicolo o periodico e di poter valutare se e dove acquisirli.

Il nucleo di CASA è il Registro ISSN e i centri nazionali ISSN: si tratta quindi di un sistema centralizzato. Tuttavia il metacatalogo e le quattro categorie di servizi, di cui dicevo, non sono quattro databases fisici, ma quattro databases virtuali. In questo senso CASA è anche un sistema distribuito, all'interno del quale la navigazione sarà possibile solo se ciascuno dei soggetti e oggetti della transazione saranno identificati in maniera univoca. L'identificazione univoca è in generale il presupposto su cui si basa qualsiasi transazione, in particolare in ambiente elettronico. Anche una descrizione bibliografica tradizionale può essere vista come un "identificatore", ma, come è noto, non è univoca, dato che quasi ogni rivista ha il proprio stile citazionale. Se per i periodici l'identificatore universalmente accettato è l'ISSN, per gli articoli il consenso su uno standard è meno unanime, anche se ora è sempre maggiormente utilizzato lo standard SICI (Serial Item and Contribution Identifier, ANSI/NISO Z39.56), che, come si desume dal nome stesso dello standard, identifica sia i fascicoli che gli articoli. Ci soffermeremo dettagliatamente tra poco sulla struttura dello standard. Per quanto riguarda invece gli altri attori della transazione, ossia le biblioteche da una parte e gli editori e fornitori di periodici, articoli e servizi dall'altra, per l'identificazione delle biblioteche è in corso di elaborazione e sarà oggetto di attenta valutazione l'aspirante standard - se posso chiamarlo così TC/SC4 ossia l'ISIL (International Standard Identifier for Libraries and Related Organisations), con tutte le riserve legate al fatto che l'ultimo documento disponibile è una bozza è del 25 marzo 1999 che deve essere revisionata in agosto. Per gli editori, invece si potrà valutare se adottare il secondo segmento del codice ISBN o il codice fiscale (per gli editori italiani) o il codice di registrazione d'impresa. Dato che uno dei partner del progetto è un editore, questo verrà valutato insieme, riservandoci di contattare altri fornitori che hanno già mostrato interesse per il progetto.

L’esigenza di uno standard che rendesse possibile il commercio elettronico, il pagamento delle royalties, document delivery, per citare solo alcune delle applicazioni, ha portato nel 1983 il Serials Industry Systems Advisory Committee (SISAC) che comprende editori, distributori, fornitori di servizi di indicizzazione e bibliotecari, ad elaborare una proposta che è stata approvata e dichiarata standard dal NISO National Information Standards Organization nel 1991. Attualmente è in uso la seconda versione, dell’agosto 1996.

Quando abbiamo iniziato a parlare della possibilità di adottare il SICI nel progetto CASA, ho cercato anche la documentazione "grigia" che mi consentisse di capire in che contesto era nato. I verbali della Commissione di redazione e revisione della prima versione della norma Z39.56 sono stati particolarmente utili perché evidenziano i punti deboli della prima versione, le difficoltà che sono state via via incontrate; in particolare il verbale del 12 maggio 1994 descrive dettagliatamente i destinatari della norma che comprendono sia biblioteche sia editori o distributori, sia le applicazioni per le quali il SICI è stato studiato. Come risulta evidente, è previsto che il SICI sia utilizzato in tutte le fasi della vita del periodico, dal momento in cui viene edito, offerto sul mercato, ordinato e spedito, alle fasi di ingresso in biblioteca. Il SICI è infatti facilmente traducibile in codice a barre, per poter essere utilizzato in ambiente automatizzato ed è infatti studiato anche per rendere più celeri le operazioni editoriali immediatamente successive alla pubblicazione, quali la pubblicazione su WEB dei fascicoli usciti, l'associazione dell'abbonamento di una rivista con il codice cliente e conseguentemente la registrazione dei fascicoli inviati a ciascun cliente molto più agilmente che con un sistema manuale. Da parte dell'utente, invece, permette, accedendo al sito dell'editore, di verificare se un fascicolo è già stato spedito. Dovendo valutare se adottare il SICI all’interno del progetto CASA, ero interessata - al di là dell’enunciazione delle applicazioni per le quali era stato studiato - anche all’uso che concretamente ne era stato fatto. Dall’indagine che ho condotto, il SICI viene utilizzato prevalentemente per il controllo e la registrazione dei nuovi fascicoli. Sono numerose le biblioteche che lo hanno adottato negli Stati Uniti: fra le altre la Doheny Memorial Library Reference Center dell’Università del Sud California. Con un programma definito dai colleghi delle università americane "più facile da utilizzarsi del previsto", le operazioni di ingresso e sollecito diventano più celeri. L’unica difficoltà - sostengono - è rappresentata dal fatto che non tutte le riviste riportano il codice SICI, o direi piuttosto molte riviste ancora non lo riportano. In effetti a puro titolo di curiosità e senza nessuna pretesa statistica, ho verificato sui 84 titoli in abbonamento nella biblioteca di chimica industriale in cui lavoro quanti riportavano il codice SICI (o meglio il codice a barre del SICI). Il risultato è sorprendente: solo 30 riviste su 84 riportano il codice SICI, ma tutte utilizzano la prima versione, e per la maggior parte solo dal 1999.

L’inconveniente della mancanza del SICI può comunque essere risolto, dato che, come vedremo, tale codice può comunque essere calcolato a posteriori. Il SICI infatti è un identificatore definito dal gruppo di lavoro sugli identificatori "intelligente", ossia il codice è costituito da segmenti, ciascuno dei quali ha un preciso significato. Per citare un esempio di identificatore "intelligente" ricorderemo l’ISBN" in cui ciascun segmento è significativo.

Vediamo concretamente qual’è la struttura del SICI. Ricordavo prima che il SICI può essere utilizzato per descrivere fascicoli o articoli o, come vedremo, per usi locali.

Il SICI che consente di descrivere un fascicolo è il Contribution segment 1 (CS1) ed è una stringa composta di due parti: il segmento descrittivo del fascicolo e un segmento di controllo. Il segmento descrittivo del fascicolo comprende: ISSN, Cronologia e Numerazione.

Il segmento di controllo comprende cinque elementi: il codice identificativo della struttura, l’identificatore della parte, il tipo di supporto, la versione della norma e un carattere di controllo.

Il CSI (Code Structure identifier) ossia il Codice identificativo della struttura è 1 nel caso di un fascicolo, 2 nel caso di un articolo e 3 nel caso di codice per uso locale). Il DPI (Derivative part identifier) Identificatore della parte prevede la possibilità di indicare: 0 articolo, 1 table of contents, 2 indice, 3 Abstract. Il comitato di redazione della norma ha infatti deciso di non addentrarsi nelle sottili motivazioni per le quali talvolta gli indici sono designati con il termine table of contents e altre volte index (forse più appropriato per l’indice analitico). Ha ritenuto operativamente più costruttivo prevedere la possibilità di indicare l’uno o l’altro, in relazione al modo in cui è indicato nella pubblicazione.

I due elementi DPI e MFI non erano presenti nella prima redazione della norma e sono risultati necessari a seguito dello sviluppo dell’editoria elettronica. Il primo, ossia il DPI consente infatti di individuare ad esempio anche parti di fascicoli non identificabili con la versione 1 della norma, come ad esempio gli indici che ora sono invece largamente disponibili in rete e essenziali come vetrina per offrire il testo completo degli articoli. Anche essi devono quindi poter essere identificati in maniera univoca, anche per creare i necessari legami tra di essi e gli articoli o altri servizi o informazioni offerti.

Il secondo elemento, il MFI è essenziale perché l’utente deve poter selezionare anche il supporto dell’articolo. Il SICI infatti consente di descrivere fascicoli o articoli su supporto cartaceo, ma, come risulta dalla tabella dello standard, anche articoli su supporto elettronico, braille o su altri formati. Dal momento che talvolta uno stesso articolo, uscito su supporto cartaceo viene digitalizzato o articoli su supporto elettronico vengono stampati, una volta raggiunta la versione definitiva, è molto importante che siano identificati da un unico identificativo.

Nel caso si debba identificare un articolo, tra il segmento descrittivo del fascicolo e il segmento di controllo viene frapposto un segmento in cui si descrive l’articolo.

In particolare tra uncinate vengono indicate la pagina iniziale dell’articolo e il primo carattere delle prime sei parole del titolo.

Uno dei contributi della commissione che ha portato alla seconda versione dello standard è stato il CS3 che consente una integrazione del SICI con altri standard, tra cui il PII Publisher Item Identifier, il CCC Copyright Clearance Centre ed altri standard localmente utilizzati da editori, distributori o fornitori di servizi sui periodici. Solo due parole sul PII che viene molto utilizzato in America e poco in Italia. Si tratta di un codice "stupido" che viene assegnato dagli editori spesso prima che un articolo venga pubblicato su una rivista e anche prima che venga deciso su quale fascicolo dovrà uscire. Non esiste un sistema centralizzato di assegnazione del PII, per cui il codice è identificabile solo a livello del singolo editore. Fino a che tuttavia non è deciso in quale fascicolo di una determinata rivista uscirà un articolo, è possibile utilizzare un SICI il CS3 che comprenda il PII. E’ previsto che nel momento in cui l’articolo viene effettivamente pubblicato, l’identificatore non sia più CS3, ma venga sostituito da un CS2.

Concretamente la stringa del CS3 comprende il n. ISSN essenziale perché possa essere elaborato il SICI, mentre può ovviamente mancare l’area della numerazione o addirittura l’anno di pubblicazione. Nel segmento locale apparirà l’indicazione del nome del codice locale utilizzato ad esempio PII, seguito dal numero interno locale. Il segmento di controllo avrà tutti gli elementi che è possibile indicare.

Come abbiamo visto, un segmento essenziale del SICI è l'ISSN. Dato che la versione cartacea e la versione elettronica della stessa rivista hanno diversi ISSN, lo stesso articolo su due supporti avrà due diversi SICI contenenti i due diversi ISSN. La versione digitalizzata (ad esempio in PDF) di un articolo in formato cartaceo sarà descritta con lo stesso SICI dell'articolo cartaceo. Per un utente sarebbe importante essere informato su tutte le versioni esistenti di un articolo, in modo tale da poter decidere la versione e eventualmente il formato preferito; soprattutto nel caso in cui invece l'articolo sia stato pubblicato solo su WEB e l'utente conosca solo una versione non più disponibile, (e quindi digitando la URL gli appare il messaggio a tutti noi ben noto Error 404), sarebbe tanto più necessario che fosse possibile visualizzare quali altre versioni dello stesso articolo sono state pubblicate. Per offrire questo strumento agli utenti potrebbe essere messo a punto un meccanismo per il quale tutti i SICI che si riferiscono allo stesso articolo siano collegati. In questo modo, digitando la URN (Uniform Resource Name) di un articolo, persistente a differenza della URL (Uniform Resource Locator), sarebbe possibile accedere alle diverse URLs e SICI degli articoli.

Il SICI può essere costruito a posteriori, al contrario del PII, e la completezza della descrizione e quindi la lunghezza della stringa è variabile, in relazione agli elementi di cui l’operatore (bibliotecario, indicizzatore, produttore di banca dati) dispone. Il SICI, infatti, non solo non deve essere generato a priori, ma non deve essere neanche essere necessariamente generato da un unico ente, con ovvi vantaggi. Non è pertanto strano che lo stesso articolo possa essere descritto con differenti SICI, come risulta evidente dal lucido che riporta alcuni esempi della tabella D riportata in fondo allo standard.

Come dicevo all'inizio, l'interesse del consorzio CASA per il SICI nasce dall'esigenza di individuare un "identificatore" che consenta di connettere i titoli delle testate presenti nel Registro ISSN, nucleo del progetto, con i servizi relativi ai periodici e agli articoli, che comprendono come dicevo:

Da un punto di vista strutturale, queste quattro categorie di servizi sono rappresentate da una rete distribuita di metadata sui periodici e puntatori che consentono, da un lato all'utente finale e all'utente professionale, che effettua ricerche per l'utente finale, di localizzare le testate e i servizi veri e propri, dall'altro agli editori e ai cataloghi collettivi di effettuare la propria offerta. In questo senso e da un punto di vista tecnico, la differenza tra utente professionale che effettua una catalogazione o uno spoglio e un fornitore commerciale che offre un servizio, è ininfluente. Ciascuna delle quattro categorie di servizi e soprattutto il database degli articoli è costituita non da un unico database, ma da un database virtuale costituito in realtà da più databases fisici. In particolare il database degli articoli o per meglio dire dei metadati degli articoli - indici e abstracts - sarà costituito da diversi databases, di cui alcuni commerciali ed altri accademici.

Il problema maggiore è rappresentato dal fatto che i repertori di articoli utilizzano ciascuno un proprio codice identificativo creato secondo proprie norme interne (il Chemical Abstracts, per citare un repertorio che utilizzo quasi quotidianamente, indica il numero del volume di pubblicazione, un numero che ricomincia da 1 per ogni volume e un carattere di controllo, mentre il Dictionary of Organic compounds utilizza [un unico numero progressivo per cias]cun record dall'inizio della pubblicazione). Perché questi repertori possano "comunicare" con il Registro ISSN e con gli altri servizi, cui CASA garantirà l'accesso, è necessario che venga utilizzato un unico codice. Il Consorzio CASA ha ritenuto che il SICI fosse il codice da adottarsi perché, fra gli altri pregi, ha anche quello di contenere il numero ISSN delle riviste. Per acquisire esperienza sull'uso del SICI, al centro interbibliotecario, abbiamo iniziato a produrre i codici SICI per gli spogli del Current Contents, un database commerciale di spogli dell'ISI accessibile dal server del CIB solo agli utenti dell'Università di Bologna e i cui spogli sono connessi alle testate di ACNP. Abbiamo quindi rilevato che la descrizione che il SICI permette di effettuare è sufficientemente accurata per limitare il numero di ambiguità, in particolare le corrispondenza di un unico SICI a più di un articolo solo per 1/2 record su un milione. Solo a titolo esemplificativo si citano quattro articoli che hanno lo stesso SICI

  1. De Benedictis, E. Users’ bill of right, "Communications of the ACM", (42) 2, feb 1999 p. 23
  2. Walter, D. Users’ bill of right, "Communications of the ACM", (42) 2, feb 1999 p. 23
  3. Smith, G. R. Users’ bill of right, "Communications of the ACM", (42) 2, feb 1999 p. 23
  4. Jackson, L. A. Users’ bill of right, "Communications of the ACM", (42) 2, feb 1999 p. 23

Trattandosi di quattro articoli usciti sullo stesso fascicolo della stessa rivista, ovviamente il segmento descrittivo del fascicolo è lo stesso, ossia 0001-0782(199902)42:2 e così il segmento di controllo 2.0.ZU;2-6. Per di più gli articoli iniziano tutti alla stessa pagina e hanno lo stesso titolo, quindi è inevitabile che abbiano lo stesso codice descrittivo, ossia <23:UBOR>.

Per superare il problema, anche se percentualmente è dell'ordine dell'1/2 record su un milione, verranno previsti dei controlli a livello software, anche se non escludiamo di segnalare il problema al comitato di redazione e revisione della norma. In realtà è dichiarato nella premessa della norma che il problema esiste, ma gli sviluppi dell'editoria elettronica rendono forse più necessario di quanto non fosse previsto cercare una soluzione al problema. Forse indicare anche l'autore potrebbe limitare il problema?

Il problema sembrerebbe aumentare in ambito scientifico, dato che è invalsa in alcuni ambiti, ad esempio in ambito chimico, l'abitudine di effettuare citazioni indicando solo l'autore (ma non sempre) e il titolo della rivista, anno e pagine. Per evitare che, la mancata indicazione di campi non obbigatori nel SICI, generi codici ambigui, a livello di progetto CASA, comunque verrà imposto ai gateways di fornire solo SICI completi. Questo vincolo potrebbe essere in contrasto con le norme citazionali di alcune riviste scientifiche e quindi con i dati a disposizione degli utenti. Il software di CASA terrà conto di questo ostacolo e farà in modo che gli utenti possano verificare citazioni incomplete sul database virtuale degli articoli, prima di selezionare un record ed effettuarne ad esempio un ordine.

Infine, e per concludere, descriverò concretamente il circuito di una richiesta - di localizzazione, di abstract, di richiesta di offerta o di soddisfacimento di un ordine o altro -. L'utente formulerà la richiesta in linguaggio naturale, digitando ad esempio il titolo di una rivista o parole chiave per ricercare articoli, producendo un certo gruppo di risposte a livello di gateways e server. Ogni gateway appartenente al circuito CASA trasformerà le richieste da linguaggio naturale a linguaggio nativo dei databases, eseguirà le queries, convertirà il risultato in RDF (Resource Description Framework) e lo riinvia al broker originario. Faccio una brevissima digressione su RDF. Molto sinteticamente una descrizione di un articolo mediante RDF, parlo di articolo perché in questo momento ci interessano gli articoli, consente di avere un nucleo che contiene un identificatore, in questo caso SICI e legami a ulteriori identificatori secondari che saranno autore, titolo, ISSN, pagina iniziale… Il confronto tra i reticoli viene fatto confrontando solo il nucleo ossia il SICI, quindi anche nel caso di descrizioni non completamente coincidenti, perché una più ricca dell'altra o fatte con standard descrittivi diversi, il match è comunque assicurato. Tornando all'iter della richiesta dell'utente, le risposte vengono formattate in RDF, combinate in un unico set di risposte (senza duplicazioni) e inviate all'utente il cui software le formatterà secondo la propria struttura inviandole all'utente in linguaggio leggibile all'uomo.

E' ovvio che non tutti i produttori di spogli utilizzano nei propri databases il SICI. Per potersi interfacciare con CASA abbiamo quindi prospettato due possibilità: o i fornitori decideranno di sviluppare un proprio software che gestiranno sul proprio server per generare il SICI a fronte delle interrogazioni esterne, oppure e sarà questo probabilmente il caso dei piccoli fornitori, non sarà considerato giustificato un investimento di questo tipo e verrà delegato a CASA questo applicativo.

Infine, un ulteriore motivo per adottare il SICI è legato al fatto che nel caso di fascicoli e articoli, fa parte del DOI. Senza addentrarmi sulla struttura del DOI, oggetto di altri interventi, ricordo solo che nel caso di fascicoli e articoli il secondo segmento identificativo del DOI è rappresentato dal SICI, come risulta dal lucido. Dati gli sviluppi del commercio elettronico, il fatto che il SICI fosse una componente del DOI ci sembrava confermarci che la scelta del SICI fosse corretta, per assicurare il futuro del progetto.

 


Note editoriali.   2004-03-24 Indicata tra parentesi quadre una breve integrazione al testo, materialmente mutilo nella versione originariamente pubblicata.
Copyright AIB 1999-05 a cura di Susanna Giaccai (rev. 2004-03-24)

Homepage AIB-WEB | Homepage Congresso 1999