«Bibliotime», anno VI, numero 3 (novembre 2003)

Precedente Home Successiva



Antonella De Robbio

Auto-archiviazione per la ricerca: problemi aperti e sviluppi futuri *



Tra gli scienziati e il caos
non c'è che un muro di archivi, di etichette,
di libri,di protocolli, di figure e di fogli.


B. Latour e S. Woolgar, Laboratory life:
the social construction of scientific fact, 1979.

 

1. L'auto-archiviazione

L'auto-archiviazione, o self-archiving, è un processo essenziale nel nuovo modello di comunicazione scientifica, il primo passo entro circuito di disseminazione informativa caratterizzato dal deposito delle proprie produzioni di ricerca in spazi "open access". Il concetto di self-archiving non va confuso quello di self-publishing o auto-pubblicazione, intesa come vanity press, termine coniato da Stevan Harnad.

Harnad individua "una linea di demarcazione profonda ed essenziale nella galassia Post-Gutenberg" [1] tra le opere che rientrano nel circuito commerciale in tutte le fasi che coinvolgono l'autore nella cessione dei relativi diritti dietro compenso (royalty) ed essenzialmente accessibili a pagamento (libri, giornali, programmi, musica), e le opere che rientrano nel circuito della comunicazione scientifica, il cui esempio più rappresentativo è quello degli articoli di ricerca pubblicati su riviste scientifiche.

I ricercatori, contrariamente a tutti gli altri autori, devono i loro guadagni non alla vendita dei loro articoli scientifici, ma all'impatto dei loro articoli sulla comunità dei ricercatori, ossia al fatto di essere letti, citati e utilizzati da altri ricercatori. Ne consegue che tutti gli ostacoli all'accesso costituiti da barriere a pagamento sono ostacoli a una crescita culturale collettiva, ostacoli alla ricerca e ai ricercatori, che sfociano in un impatto negativo in termini di benessere economico e sociale, per il semplice motivo che vanno a ledere il processo "formativo" degli individui.

Poiché le produzioni di ricerca auto-archiviate massimizzano e accelerano l'impatto della ricerca massimizzando perciò l'accesso alla ricerca stessa, sono molti i ricercatori che da alcuni anni archiviano i loro lavori sui server delle proprie istituzioni o su server disciplinari. Un noto articolo di Lawrence [2] apparso su Nature rileva una media del 336% in più di citazioni ad articoli online rispetto agli stessi articoli pubblicati a stampa.

Vi sono, a livello internazionale, notevoli esperienze in ambito scientifico, in particolare per la fisica, l'economia, la matematica, la biomedicina, l'astronomia, la chimica… Gli articoli auto-archiviati dagli stessi autori negli archivi elettronici istituzionali possono essere accessibili a tutti, ovunque, senza che ci sia bisogno di conoscere la loro localizzazione effettiva.

Negli Stati Uniti nell'ultimo decennio sono sorti numerosi Open Archive di varia natura e/o tipologia, mentre in Europa vi sono alcune esperienze notevoli e anche in Italia stanno sorgendo i primi agglomerati per certi settori disciplinari o basati su server istituzionali.

I pre-print e i lavori intellettuali considerati tradizionalmente come letteratura grigia, rapporti tecnici, relazioni ai convegni, atti di congressi, documenti progettuali, documenti pre e post pubblicazione, sono una fonte preziosa per lo sviluppo di qualsiasi settore disciplinare. Per i settori scientifici la disponibilità immediata della letteratura prodotta è ormai una necessità non più prorogabile.

Un pre-print è una tipologia di documento, distribuito in modo più o meno limitato, relativa ad un lavoro tecnico spesso in forma preliminare, precedente alla sua pubblicazione in un periodico. Molto spesso però questa tipologia di materiale non rientra per nulla nei canali della distribuzione a stampa, e rimane così "nascosta" e priva di un effettivo impatto nella comunità dei parlanti.

Un post-print è la versione modificata, che ha passato il vaglio del comitato editoriale, che è già stata sottoposta a refereeing. Per e-print invece si intende attualmente una evoluzione del materiale pre-print, post-print, post-post-print nella sua forma elettronica. Gli e-prints sono copie elettroniche di paper accademici; solitamente un pre-print evolve entro un articolo di periodico, o entro un volume, o entro un'altra forma di pubblicazione a stampa o elettronica, e diventa così un post-print. Tale evoluzione, soprattutto nelle pubblicazioni a stampa, comporta che il paper diviene difficilmente accessibile a causa dei prezzi sempre più alti degli abbonamenti alle riviste, senza contare i ritardi nei tempi di pubblicazione.

E' innegabile che per settori come la fisica, la matematica o l'astronomia, il pre-print sia da decenni una forma di scambio quotidiano: le comunità lavorano sui pre-print e vengono informate immediatamente circa le nuove scoperte, ne discutono, dibattono i punti pochi chiari, collaborano tra campi affini e correlati, mentre la rivista è solo lo strumento formale per una comunicazione "allargata", e probabilmente in certi campi è utilizzata solo a scopo curricolare o "conservativo", quasi come un archivio che registra la tappa finale di un processo complesso che ha coinvolto tutta la comunità.

Nell'ambito umanistico, non esiste nulla di tutto ciò, non vi è nemmeno l'uso della peer-review e dei processi di refereeing, in quanto l'oggetto preminente della ricerca umanistica è la monografia. Un Open Archive di ambito umanistico potrebbe però riguardare aspetti di ricerca particolari, e l'implementazione di archivi in questo settore potrebbe essere una frontiera assai promettente.

Accanto agli e-print server disciplinari, stanno sorgendo, a livello internazionale, e-print server istituzionali, politicamente più forti rispetto alle aggregazioni libere messe in atto, in questi anni, da comunità disciplinari; essi infatti richiedono un'organizzazione stabile entro un quadro politico di responsabilità ben definita. I server istituzionali, di fatto, si contrappongo all'attuale modello distorto del circuito della comunicazione scientifica, imponendosi come luoghi per il semplice deposito dei materiali.

Aprire un Open Archive è compito degli atenei, degli enti di ricerca e delle altre istituzioni scientifiche, in quanto la ricerca si svolge, si sviluppa, ma soprattutto si produce entro questi luoghi.

2. Gli Open Archives

Vediamo cosa sono gli Open Archives, o E-prints server, i cosiddetti Data Provider. Un deposito entro l'architettura Open Archive Initivative (OAI) è noto come "data provider"; sono Archivi Aperti preposti al deposito dei documenti scientifici, in forma elettronica (e-prints), funzionali alla loro gestione e conservazione, muniti di metadati in formato standard ai fini dell'interoperabilità. Si dicono OAI-compatibili quando rispondono ai requisiti tecnici e agli standard di interoperabilità. I documenti elettronici possono essere depositati direttamente dagli autori attraverso un semplice processo noto come auto-archiviazione, o da terze persone (ad esempio i bibliotecari). Ciascun documento depositato in un DP Data Provider è corredato da metadati in formato standard che vengono esposti per la raccolta (harvesting) da parte dei SP Service Provider "fornitori di servizi".

Gli archivi sono detti "aperti" in quanto possono essere interrogati da un servizio (service provider) che si occupa di indicizzare i metadati raccolti dai vari archivi attraverso la funzione di harvesting. Il colloquio e lo scambio informativo di metadati è possibile solo tra archivio OAI compatibili o interoperabili.

I modelli tecnici di Open Archive sono due: il modello accentrato (come nel caso di arXiv.org), che prevede un unico, grande server a carattere nazionale o internazionale; modello distribuito (com'è il caso di RePEc), ossia piccoli server locali sparsi. Spesso i server locali non sono integrati entro una rete a modello distribuito, e per questa ragione molti di essi, negli ultimi cinque anni, sono stati assorbiti da server più grandi (per esempio da arXiv).

A livello organizzativo dunque le scelte possono essere:

SPARC ha recentemente definito gli archivi istituzionali come "collezioni digitali che catturano e conservano le produzioni intellettuali di una singola o di più comunità accademiche". Mentre gli archivi disciplinari come ArXiv o CogPrint si focalizzano in particolare su domini di soggetto specifici, i depositi istituzionali immagazzinano e rendono accessibili le produzioni della propria istituzione. Sotto questo punto di vista gli archivi istituzionali non sono necessariamente limitati agli e-prints di letteratura di ricerca, in quanto potrebbero ospitare ed offrire un focus di tipo istituzionale completo per l'aggregazione e conservazione di collezioni diverse da quelle riferibili ai soli paper di ricerca, comprendendo anche dati scientifici, risorse didattiche, collezioni di immagini e molti altre tipologie materiali.

I depositi istituzionali possono essere considerati un'estensione naturale delle responsabilità dell'istituzione accademica in quanto generatori di ricerca primaria, e possono costituire di fatto la componente più importante nell'evoluzione della struttura dei nuovi modelli di comunicazione scientifica. Le potenzialità dei depositi istituzionali sono numerose; essi infatti

E' ormai indiscusso che per esserci "impatto" è necessaria un'ampia disseminazione: in altri termini, i lavori dei ricercatori devono essere letti, citati e utilizzati da altri ricercatori; solo così raggiungono quell'impatto utile a uno sviluppo collettivo, che consente di creare nuove ricerche e di effettuare nuove scoperte sulla base di un lavoro altrui letto, assimilato, metabolizzato.

Si stimano circa 2 milioni di articoli annui in 20.000 riviste che ora sono tenuti "prigionieri" entro riviste scientifiche a stampa.

Due sono i canali dell'Open Access:

  1. la pubblicazione entro iniziative di editoria elettronica sostenibile;
  2. il deposito negli Open Archive.

L'attuale sistema è in forte conflitto con gli scopi di ricercatori e scienziati i quali, è ovvio, pubblicano i propri lavori di ricerca principalmente per ottenere una massimizzazione dell'impatto entro la comunità internazionale. L'impatto consiste nella lettura dei paper scientifici, nella loro citazione da parte di altri studiosi e nella costruzione di nuove ricerche generate dal lavoro "comunicato".

Due sono le strade che facilitano il ribaltamento dell'attuale modello:

  1. il supporto da parte delle istituzioni all'editoria sostenibile per la pubblicazione di periodici open access;
  2. la creazione di depositi alimentati attraverso il processo di auto-archiviazione per la disseminazione dei lavori di ricerca

La creazione, gestione e manutenzione di Open Archive, pur presupponendo un solido e ben definito corpo di "politiche" a corredo dell'archivio o degli archivi, non rientra nella sfera "editoriale". I depositi, siano essi istituzionali o disciplinari, si comportano in modo differente rispetto alle iniziative dei periodici "open access", pur rientrando e facendo parte di quella zona cosiddetta "open access".

Sostanzialmente un modo per supportare l'accesso aperto è quello di continuare a pubblicare nelle riviste tradizionali esistenti munite di peer review, ma contemporaneamente praticare l'auto-archiviazione di quanto sottomesso alle riviste a stampa o on-line. In questo modo si attua un doppio binario: da una parte il deposito immediato entro un archivio di e-print pubblicamente accessibile (istituzionale o disciplinare), dall'altra la sottomissione alla rivista secondo il processo tradizionale, come ben evidenziato da Stevan Harnad e Tim Brody [3] nel diagramma di sotto che rappresenta la catena del paper entro una visione nuova di comunicazione scientifica.

3. Il problema dei costi

Gli ostacoli al diritto di accesso ai contenuti possono essere correlati a due fattori strettamente connessi:

Relativamente al primo ostacolo le considerazioni che si possono fare sono molteplici. Un alto prezzo di abbonamento rende la rivista scarsamente presente nelle biblioteche; laddove la rivista non è distribuita in modo capillare ne consegue una perdita di efficacia dei contenuti pubblicati da quella rivista, anche se questi sono indicizzati dai maggiori database. Il fatto che una rivista coi suoi lavori sia coperta da autorevoli database specializzati non necessariamente significa che i lavori in essa contenuti vengano letti, se il prezzo d'abbonamento risulta elevato. Il fattore d'impatto può rimanere basso, a causa di un prezzo che tende a salire.

Scrive Giuseppe Vitello [4] che, "mentre gli editori di varia hanno (o pretendono di avere) un margine di profitto che nella migliore delle ipotesi raggiunge il 10% del prezzo di copertina, gli editori scientifici dichiarano costantemente margini a due cifre, che in qualche caso raggiungono il 30-40% del loro fatturato", come nel caso di John Wiley, per il quale il margine di profitto arriva al 48.1%, o Elsevier che presenta il 38.6%.

E' innegabile che il "modello economico" di questi editori, se risulta catastrofico per la ricerca, per il mercato è invece è "buon" modello su cui "investire" in quanto fonte di profitto. Per questa ragione risulta assai difficile che le attuali leggi sul copyright, pesantemente orientate alla tutela di un mercato economico piuttosto che di un mercato culturale delle idee, tengano conto di questi aspetti, e perciò allo stato attuale gli ostacoli normativi diminuiscono la visibilità potenziale dei ricercatori e del loro lavoro, riducendo il loro impatto per il fatto che non sempre le biblioteche sono in grado di pagare gli abbonamenti o i diritti di accesso per riviste elettroniche altrettanto costose.

I ricercatori non traggono "guadagni di pubblicazione" grazie alla vendita dei loro articoli pubblicati nelle riviste scientifiche, ma ottengono "guadagni di impatto" se i loro articoli vengono diffusi in modo adeguato. L'obiettivo dei ricercatori è quello che i loro lavori vengano visti dal maggior numero di persone, indipendentemente da questioni "economiche" intese in termini di guadagno economico personale; l'obiettivo principale va quindi oltre la diffusione, ma si estende alla disseminazione informativa dei loro contenuti intellettuali.

Come ci dice Stevan Harnad nella "teoria sovversiva" da lui elaborata per abbattere i costi delle riviste e rompere questa catena pesantissima,

i costi elevati nell'era cartacea di Gutenberg, dispendiosa e inefficace, erano inevitabili; ma oggi, nell'era post-Gutenberg on line, il funzionamento alla vecchia maniera, con i suoi costi elevati deve essere mantenuto come opzione complementare invece che come strumento indispensabile.

Vale a dire: ribaltare la situazione, preferire la versione online e mantenere il cartaceo solo come opzione. Ma Harnard non intende per versione online quella venduta come "prodotto confezionato" dalle case editrici, le quali aggiungono ulteriori sovrapprezzi a quanto già da noi pagato a cifre vertiginose. Quello a cui oggi si fa riferimento (in particolare da parte della Open Archive Initiative), è la versione libera dei lavori posti sugli e-print server degli Atenei in un'ottica di "comunicazione aperta" e di interoperabilità tra comunità diverse.

Attenzione alle idee di 'valore aggiunto' proposte dagli editori come indispensabili! Secondo Harnad il solo servizio indispensabile ancora fornito dagli editori di riviste è la valutazione degli articoli; gli altri servizi a valore aggiunto quali la versione cartacea (se teniamo conto di quella online come opzione preferibile) o le riproduzioni di pagine in formato PDF on line sono optional di lusso, indubbiamente interessanti ma non prioritari. Nell'era digitale non vi è più necessità di tenere la ricerca valutata prigioniera dei diritti di abbonamento o di considerarla alla stregua degli optional di lusso, i quali vengono pagati attraverso questi diritti. Non vi sono giustificazioni per mantenere questo stato di cose.

4. Il problema dei diritti

Le proposte di sostituzione dell'abbonamento con un diritto di accesso in licenza d'uso, o del diritto di accesso con un pagamento per la selezione degli articoli che si leggono (pay-per-view) sono tutte modalità che ripropongono lo stesso "modello economico distorto", e su queste nuove vie di accesso all'informazione andrebbe aperta una seria riflessione.

I diritti di abbonamento, se eccessivi, sono ostacoli all'accesso e dunque all'impatto e a una libera ricerca. L'abbonamento per l'editore di una rivista, è il mezzo per rifarsi delle spese e di garantirsi un profitto equo, ma spesso non si tratta di un profitto equo. E' tempo ormai che ogni ricercatore si ponga nell'ottica di fare in modo che certi meccanismi distorti vengano riequilibrati a favore della ricerca, sia a tutela del suo stesso lavoro sia degli interessi dell'università in cui opera, cosa possibile con l'auto-archiviazione negli archivi elettronici.

E' importante sottolineare che, oltre alle regole del copyright, che dipendono dal diritto (internazionale, europeo, nazionale) certe riviste hanno regole di embargo, che dipendono semplicemente dalla loro politica editoriale e non dal diritto. Ad esempio vi sono alcuni editori i quali, invocando la "Regola di Ingelfinger" [5] (che serve agli editori per proteggere le loro fonti di guadagno) decretano che non valuteranno e ancora meno pubblicheranno articoli che sono già stati 'resi pubblici' a convegni, o già auto-archiviati nei server delle istituzioni.

Alcune riviste che applicavano la Regola di Ingelfinger - tra cui "Science" - stanno rivedendo le loro posizioni, mentre "Nature" l'ha già eliminata, in quanto essa è in contraddizione con gli interessi della ricerca e dei ricercatori, e pertanto nuoce all'immagine stessa della rivista.

I ricercatori farebbero bene a ignorare completamente norme che non trovano la minima giustificazione nel diritto, così come hanno fatto da dieci anni a questa parte gli autori dei 200.000 articoli del server ArXiv di fisica.

I contratti di cessione dei diritti economici possono essere stilati in modo personalizzato, e l'autore deve poter intervenire in questa fase delicata. Laddove nei contratti di cessione non si autorizzi esplicitamente l'auto-archiviazione on line, l'autore dovrebbe modificarne la formulazione in modo che essa venga autorizzata.

Uno schema di clausola, che potremmo chiamare "Clausola del Fair Use", può essere così formulata:

Delego a [l'editore o la rivista] tutti i diritti di vendere o di cedere il testo (su carta o on line) del mio articolo [titolo dell'articolo]. Conservo solo il diritto di diffonderlo gratuitamente a fini scientifici o didattici, in particolare il diritto di auto-archiviarlo pubblicamente on line sul Web. [6]

Il 10% degli editori autorizza fin d'ora esplicitamente l'auto-archiviazione delle pubblicazioni valutate, e molti editori (che Harnad stima intorno al 70%) accetteranno la clausola se inserita nel contratto.

Il progetto europeo RoMEO (Rights on MEtadata for Open archiving) [7], sorto per investigare la questione dei diritti che ruotano attorno l'auto-archiviazione per i lavori depositati negli Open Archive della comunità accademica britannica, ci sta fornendo dei dati ancor più ottimistici.

Su 7.135 periodici pubblicati da 80 editori accademici, ben 3.897 (pari al 54,6%) supportano formalmente il self-archiving dei pre-print o dei post-print, o entrambe le versioni. Solo pre-print 2.552 periodici (pari al 35,7%), solo post-print 139 titoli (pari all'1,9%), entrambe le versioni 1.209 periodici, distribuiti da 20 editori. Rimangono fuori 3.238 periodici (pari al 46,57%); ma può anche essere che questi editori non si siano ancora posti la questione dell'auto-archiviazione e comunque non è escluso che, come suggerisce Harnad, qualora l'autore rivendicasse i suoi diritti questi editori non concedano l'autorizzazione all'auto-archiviazione.

Il progetto RoMEO tiene conto delle questioni correlate alla raccolta dei metadati da parte dei data providers entro i service providers, secondo quanto prevede l'Open Archives Initiative. Romeo è coordinato da Charles Oppenheim dell'Università di Loughborough, e si occupa di indagare come i metadati e i dati (i lavori originali di ricerca) 'give-away research literature' sono utilizzati, e come questi possono essere protetti. Saranno sviluppati una serie di elementi sui diritti a partire dalla costruzione di schemi e vocabolari esistenti (Open Digital Rights Language) da inserire entro i metadati. Obiettivo di Romeo è creare un sistema che dimostri come i diritti sui metadati possono essere assegnati, scoperti, raccolti e visualizzati agli utenti attraverso il Protocollo OAI per la raccolta dei metadati.

5. Le iniziative per l'auto-archiviazione

Gli archivi elettronici dovrebbero essere tutti concepiti entro un quadro di interoperabilità. La costruzione degli archivi si basa solitamente su software libero. Gli Open Archive possono essere resi ricercabili come se facessero parte di un archivio virtuale globale con tutta la letteratura scientifica disponibile, pre e post valutazione. A tal fine ogni nuova installazione, per essere visibile e ricercabile a livello globale, deve essere opportunamente registrata nell'apposito registro internazionale presso il sito OAI [8].

In tale ottica è importante segnalare alcune iniziative, suddivise in due aree distinte ma strettamente correlate. Da una parte si trovano iniziative come OAI, la quale è nata con lo scopo di sviluppare e promuovere standard per l'interoperabilità tra archivi al fine di essere di supporto ad un'efficiente disseminazione di contenuti; dall'altra si collocano iniziative come la Budapest Open Access Initiative (BOAI) o il movimento Free Online Scholarship (FOS).

La Open Archive Initiative [9] si occupa di approntare standard e protocolli per l'interoperabilità tra archivi, ed è per questo che si parla di "compatibilità-OAI". Essa affonda le sue radici nel continuo sforzo teso al miglioramento dell'accesso ai documenti entro gli archivi e-print, mettendo a disposizione strumenti, software e documentazione (protocolli, standard) e promuovendo l'utilizzo di metadati standard. OAI è supportata nelle sue iniziative dalla Digital Library Federation e dalla Coalition for Networked Information, e riceve finanziamenti dal National Science Fundation.

Nella terminologia Open Archive Initiative gli e-print server sono detti "data provider" o "fornitori di dati", laddove per dati si intendono sia i "testi pieni" (full-text) sia i "dati sui dati", e cioè i metadati. I metadati sono le informazioni che descrivono i dati, per esempio i dati bibliografici che descrivono un articolo depositato sul server.

In OAI esistono perciò due categorie di server:

L'iniziativa di Budapest si distingue da OAI giacché il suo scopo è di far pressione sugli autori al fine di ottenere un consenso generalizzato ed è finanziata dalla Fondazione Soros di OSI Open Society Institute [10]. OSI elargirà un milione di dollari per anno, per tre anni consecutivi, per lo sviluppo di un progetto il quale prevede piani e modelli per l'auto-archiviazione "sostenibile" in oltre 140 Paesi. Tra gli ideatori di BOAI ci sono nomi come Fred Friend (Director, Scholarly Communication, University College London), o Rick Johnson (Director, Scholarly Publishing and Academic Resources Coalition - SPARC), ed anche rappresentanti del mondo dell'editoria come Jan Velterop di BioMed Central.

Per BOAI ciò che conta è il consenso dell'autore, non soltanto le necessità o desideri dell'utenza. BOAI non si occupa di applicazioni software o di aspetti tecnologici, ma è focalizzata principalmente sui processi di peer-reviews. Il suo scopo primario è quello di promuovere l'auto-archiviazione. Il concetto che sottende la filosofia BOAI è quello di un rigoroso rispetto del diritto d'autore, che libera la ricerca. E' un concetto molto vicino a quello del software libero distribuito con licenza GNU, di cui parlerò in seguito.

Va sottolineato però che non è sufficiente creare degli archivi elettronici, ma è necessario che tutti i ricercatori comincino ad auto-archiviare i propri articoli. Le biblioteche e i bibliotecari possono essere un punto di riferimento, un supporto organizzativo all'archiviazione stessa dei documenti in stretta sinergia con gli informatici.

Fondamentale è l'organizzazione di service provider dedicati alla raccolta di metadati dai vari archivi, o sistemi di metadata harvesting [11], entro una cornice di interoperabilità estesa al di là delle differenze tra server. Tale funzione, inquadrabile come un servizio a valore aggiunto, è una funzione di meta-livello, che sta sopra gli Open Archive intesi come data provider distribuiti sul territorio. Va detto che, nell'implementare un server OAI, sarebbe opportuno attenersi al protocollo Open Archives Initiative Protocol for Metadata Harvesting Protocol [12], indispensabile per rendersi visibili ai fini della raccolta, esponendo i propri metadati al colloquio entro la comunità internazionale.

6. Il quadro internazionale

A livello internazionale lo scenario si svolge attorno a due canali, apparentemente distinti ma di fatto interagenti. Da una parte vi sono gli archivi istituzionali, numerosi ma piccoli e poco "popolati" e, secondo alcune scuole di pensiero (tra cui quella di Stevan Harnad) con una forza strategicamente innovativa a livello politico. Dall'altra vi sono qli archivi disciplinari, più ampi e meglio collaudati, che rappresentano momenti di forte aggregazione per alcune comunità scientifiche, e di cui si registrano alcune iniziative ben avviate, che riflettono realtà ormai consolidate. Esistono inoltre altre soluzioni: gli umbrella server (una specie di MetaOA), gli individual data provider (modello Kepler), etc.

I fisici già da dieci anni archiviano i loro lavori nei server di tutto il mondo, in quanto sono stati i primi a partire con il server "xxx.lanl.gov", ora arXiv.org; i ricercatori in scienze cognitive in tre anni hanno depositato oltre mille articoli [13]. Il progetto degli economisti WoPEc (Working Papers in Economics), sorto nel 1999 per opera di Thomas Krichel [14] entro la rete RePEC, è costituito da un insieme di oltre 200 archivi [15] che mettono a disposizione più di 60.000 articoli e rapporti tecnici di ambito economico. Ogni istituzione che partecipa al progetto mette in comune i propri dati e contemporaneamente diventa un mirror che garantisce l'accesso ai dati di tutti gli altri archivi.

Anche i matematici e i fisici hanno sviluppato progetti internazionali per la creazione di repositories dei loro lavori [16]. Tali progetti sono per esempio Front for the Mathematics, con oltre 10.000 lavori matematici [17], e ArXiv, il server dei fisici di Los Alamos [18]. Il progetto europeo MPRESS/MathNet.preprints server [19], coordinato dai matematici tedeschi Judith Plümer e Roland Schwänzl, non è un server per il deposito, ma un'architettura del tipo umbrella server, la quale consente di ricercare nei metadati di alcuni server di preprint attraverso una meta-interfaccia.

Per la medicina esistono esperienze nuove, iniziate a partire dalla fine del 2000, in connessione con prestigiose banche dati, come nel caso dell'integrazione tra la banca dati PubMed (Medline) e il repository PubMedCentral [20], un tipo di archivio centralizzato che funziona attraverso accordi con editori, e che prevede un formato XML per il trattamento non solo dei metadati, ma anche dei dati (testi pieni). PubMedCentral in sostanza è un server centralizzato, un archivio dove però non avviene self-archiving, ma i lavori vengono depositati dagli stessi editori. NetPrint [21], per il settore della medicina clinica, è molto più vicino ad un vero Open Archive, in quanto si basa sull'auto-archiviazione da parte degli autori.

Esistono anche Open Archive per la chimica, la biologia e per altre discipline, anche se per quelle umanistiche c'è ancora molta strada da percorrere. Cogprints [22], creato da Stevan Harnad, è l'OA per le scienze cognitive, la psicologia, le neuroscienze e la linguistica, dove i ricercatori in tre anni hanno depositato oltre mille articoli a testo pieno; esso comprende oltre 6500 metadati, recuperati da altri archivi di bibliografie in BibTex. Cogprint è un esempio di e-server misto, dove convivono appunto i metadati provenienti da bibliografie e metadati provvisti del corrispettivo documento a testo pieno provenienti da processi di self-archiving.

Esistono inoltre esperienze nel campo dell'informatica, è il caso di ricordare il progetto NCSTRL (pronuncia ancestral) Networked Computer Science Technical Reference Library [23], a cui fa riferimento anche ERCIM per la matematica, il quale sta per traslocare e transitare dal vecchio modello che implementava il protocollo Dienst verso il modello che utilizza tecnologie OpenArchive Iniziative di tipo EPrints entro una cornice di progetto che prenderà il nome di Scholnet. La trasformazione di NCSTRL coinvolgerà probabilmente anche ERCIM, The European Research Consortium for Informatics and Mathematics, che ne è parte integrante. Scholnet prevede un nuovo software per la gestione di materiale multimediale e didattico per attività di e-learning e per la creazione ed estrazione automatica di metadati.

La situazione attuale risulta quindi assai frammentata, con centinaia di e-server istituzionali, disciplinari, accentrati, distribuiti, piccoli, grandi, depositi di collezioni, papers sparsi sui siti web, umbrella servers e metamotori OA (service provider).

L'esperienza di CiteSeer/ResearchIndex, costruito da NEC Research Institute, nasce per sanare questa frammentarietà. Il servizio pesca regolarmente home page degli studiosi nel campo dell'informatica, catturando e collezionando paper, consentendo ai singoli autori di depositare i lavori, in connessione con arXiv attraverso una sezione relativa all'informatica, chiamata CoRR - Computing Research Repository. Le esperienze di umbrella server del tipo MPRESS sopra citato offrono un utile servizio di meta-ricerca, che consente di interrogare più server attraverso metadati Dublin Core, anche se tale soluzione non offre un deposito unico. Un vero modello di sistema di archivi aperti di tipo distribuito è RePEC (Research Papers in Economics) [24], la più grande collezione decentralizzata del mondo di documenti per l'economia ad accesso libero, una rete che collega diversi archivi.

7. Problemi e prospettive

Prima di passare ad analizzare gli ostacoli ai progetti di creazione di depositi disciplinari o istituzionali, e prima di illustrare alcuni suggerimenti per possibili soluzioni, vediamo alcuni dati statistici sugli Open Archive, elaborati da Tim Brody [25]. Ad oggi esistono oltre 140 archivi, tra disciplinari e istituzionali, di cui 3 di grandi dimensioni (descritti sopra) e ricchi di papers, e 68 basati sul modello EPrints.

La media del numero totale di depositi per archivio è circa 9000 (tenendo conto dei tre grandi e considerando la media bassa degli EPrints) e va necessariamente innalzata velocemente. L'incremento del numero di lavori free access entro gli archivi OAI è pari a oltre 1.400.000 record totali (compresi i 234.181 di ArXive e i 200.000 di RePEc), anche se non tutti i record si riferiscono a lavori depositati a testo pieno, ma ai soli metadati.

Il totale dei record di tutti i 68 Archivi Eprints è di oltre 8000, con una media di 120 papers depositati in ciascuno (va considerato che il modello EPrints è appena nato).

Gli archivi istituzionali assestati e operativi nel mondo sono 23, con un totale di 5000 papers full-text (processo lento)

Aprire un Open Archive non è un problema tecnico, ma è una questione di "politiche" a vari livelli. Il deposito deve essere considerato il registro ufficiale delle produzioni di ricerca di quell'ateneo. Deve essere riconosciuto come strumento di ausilio alla valutazione delle produzioni di ricerca degli studiosi di quell'ente da parte degli organismi preposti alla valutazione. Dobbiamo chiederci "Che cosa serve per riempire gli Open Archives?".

L'obiettivo primario delle università (o degli enti finanziatori della ricerca) deve essere quello di adottare una politica sistematica di auto-archiviazione di tutte le produzioni di ricerca refereed. Ciò che occorre sono policies a corredo dell'Open Archive per la submission, di copyright e per i medatati.

Altro passo fondamentale è quello di adottare curricula vitae (CV) online standardizzati, sul modello britannico [26], cosa che potrà essere uno strumento in più per la valutazione online dell'impatto della ricerca da parte di chi la finanzia, attraverso opportune connessioni tra i CV e i dati entro gli archivi.

Senza il consenso non si apre nessun Open Archive, né disciplinare né istituzionale. Ma occorre comprendere quale dovrà essere il modello organizzativo più congeniale, se appunto un deposito istituzionale oppure più depositi disciplinari entro lo stesso ente, oppure condivisi da più enti. Non è una questione puramente tecnica perché gli strumenti software per costruire un archivio ci sono, e peraltro sono strumenti facili da utilizzare e gestire in quanto sono open source.

Serve il consenso degli organi accademici. Servono le politiche, per la sottomissione dei dati e dei metadata, le politiche di copyright, serve stabilire chi sarà l'entità Open Archive di quell'ente, lo si deve definire in tutte le sue linee. Occorre dargli un'identità precisa, scegliere un nome, stabilire chi può accedere, chi può depositare, che cosa va depositato e cosa no, quali sono i formati accettati. E' necessario, a scanso di pesanti equivoci, stabilire se deve essere un deposito che contenga "tutto" quello che viene prodotto dall'ente, pre-print, report tecnici, capitoli di libri, interventi a seminari, presentazioni… o solo ciò che viene sottomesso a periodici o presentato a convegni.

Ma attenzione, un deposito non deve essere una rivista: si tratta di due strumenti diversi, e questo va ricordato agli organi che dovranno deliberare l'apertura di un open archive all'interno di una struttura. Ai bibliotecari va detto che un archivio non è un catalogo, ma uno strumento fondamentalmente diverso, e quindi sia l'interfaccia sia i metadati devono essere "a portata di mano" dell'utente finale, così come lo schema disciplinare per il browsing utile alla "collocazione" entro uno schema disciplinare che dovrà essere il più semplice possibile. Questo perché avremo bisogno soprattutto del consenso degli autori, altrimenti ogni tentativo di far decollare l'open archive fallirà. In Italia attualmente abbiamo qualche esperienza, ma i server sono vuoti appunto perché manca il consenso.

La chiave del successo sta nell'aggregazione e nella cooperazione. Fondamentalmente si tratta di un problema economico, e le soluzioni stanno nelle potenzialità del lavoro distribuito e nella creazione di alleanze, cruciali nella creazione di reti per gli Open Archive. Per tale ragione è vincolante, per una buona riuscita di qualsiasi strategia, che alla base vi sia una politica sul copyright basata su:

In merito agli archivi istituzionali i responsabili dovranno vegliare affinché siano osservate alcune precauzioni, offrendo accordi espliciti con gli autori che auto-depositano, per esempio sottoponendo le regole dell'archivio come parte integrante del processo di submission del paper. Queste dovrebbero includere garanzie sul fatto che l'autore non sta violando accordi presi con terze parti, come editori, ossia che non viola il copyright depositando il lavoro. Tali garanzie dovrebbero anche assicurare che l'autore esplicitamente accetta i termini e le condizioni del contratto tra autore e archivio, ovvero accetta che il contenuto sia reso pubblicamente disponibile.

Fino ad oggi l'attenzione sul copyright delle università si è focalizzata sulle questioni IPR (Intellectual Property Rights) su marchi, brevetti, scoperte industriali, o sui materiali di ambito pedagogico quali i test, e molte delle politiche sul copyright per ora escludono gli articoli e i volumi. Alcune università in ambito internazionale si stanno però ponendo il problema della proprietà intellettuale sui lavori di ricerca dei propri ricercatori, e si stanno chiedendo a chi spetti il copyright, se all'ente o se all'autore.

Per convincere gli autori è necessario il consenso al fine di ottenere il deposito di "contents, contents, contents!" (grido di Harnad). E' perciò necessario analizzare i comportamenti e le abitudini delle singole comunità di studiosi: a livello di gruppo, nazionale, internazionale, dentro l'istituzione, nella comunità disciplinare. Come ho notato sopra, i comportamenti tra le varie comunità differiscono enormemente. Avere un quadro preciso di tali comportamenti è assolutamente strategico, in quanto le abitudini e le trasformazioni sociali sono più importanti di qualsiasi configurazione tecnologica.

Potrebbe essere importante avviare un'analisi dei comportamenti delle varie comunità a livello territoriale, al fine di individuare eventuali aperture di archivi disciplinari su base italiana.

La comunità scientifica deve essere coinvolta, per questa ragione, nei dibattiti internazionali; qualcuno richiama l'attenzione sugli approcci basati sulle discipline, i quali non sono affatto in contraddizione con gli archivi di tipo istituzionale. Per usare tecnicismi mutuati dai settori LIS, potremmo parlare di indagine preventiva sugli "user requirements" per la costruzione di archivi confezionati sulle reali esigenze delle comunità (locali? centralizzati?); non basta dire che "online è meglio" (grido di Krichel), ma occorre offrire qualcosa in più. Gli archivi istituzionali devono essere integrati dentro la Biblioteca Digitale in modo da consentire una visibilità totale e trasversale da qualsiasi punto del sistema informativo: soluzione portale, OPAC, banche dati, periodici elettronici, e in modo da garantire una connessione tra referenze bibliografiche.

Le parole chiave per il consenso e che aggiungono valore all'atto dell'auto-archiviazione sono:

Il reference linking è al centro di importanti ricerche in alcuni settori di ricerca in campo bibliometrico, in particolare nell'analisi citazionale. Reference linking e Citation analysis, combinati assieme, costituiscono un punto di partenza fondamentale entro il quadro Open Archive Initiative i per nuovi modelli di comunicazione scientifica.

Esiste un'ampia gamma di lavori, di ragguardevoli proporzioni rispetto alla totalità delle produzioni scientifiche, che non ricevono citazioni nei successivi cinque anni dalla loro pubblicazione. Questa zona, chiamata area uncitedness, è ugualmente degna di nota per la sua breve ma tormentosa storia, la quale è soggetta ad ambiguità e fraintendimenti, errori di calcolo e politicizzazioni. In un articolo del 1997 Schwartz [27] rivaluta questa grande massa di uncitedness in termini di analisi di un fenomeno generale insito nel circuito della comunicazione scientifica. Le percentuali dei lavori che ricadono in zona uncitedness variano a seconda degli ambiti disciplinari, raggiungendo per l'ambito LIS il 72% del totale dei lavori prodotti.

L'applicazione di strumenti per il reference linking e il parsing citazionale entro gli Open Archive aiuta a ridurre la zona uncitedness facendo emergere lavori anche importanti che restano nascosti dopo la loro pubblicazione formale in riviste a stampa.

I servizi Open Archive di CiteBase sono una ricca fonte di informazione e un punto di partenza verso l'auto-archiviazione. CiteBase mette a disposizione il software per la costruzione di archivi (EPrints), e il software per il parsing citazionale OpCit ai fini della connessione tra citazioni (reference linking). CiteBase Search, disegnato e scritto da Tim Brody, fa parte del progetto Open Citation Project e fornisce agli utenti la possibilità di ricercare entro archivi multipli differenti con funzionalità di ranking nella presentazione dei risultati, incluso l'impatto della citazione. I dati sono raccolti usando il protocollo Open Archives Metadata e un harvester che si occupa di scaricare i dati da un archivio all'altro, in questo caso da ArXiv e da Cogprints.

ParaCite è un servizio sperimentale progettato sempre dal gruppo dall'università di Southampton, per la localizzazione degli articoli dai riferimenti bibliografici grezzi. Quando una citazione bibliografica è passata al servizio, viene suddivisa in parti componenti (per esempio autore, titolo, anno) e trasferita alla risorsa di ricerca. Viene presentato un insieme di risorse basate sull'area di soggetto e sui dati forniti facendo in modo che il sistema scelga un link verso risorse con alta probabilità accesso all'articolo a testo integrale a costo zero.

ParaCite ha sviluppato un'applicazione per il software EPrints, il pacchetto ParaTools, che include la conversione sia di liste di riferimenti bibliografici, sia di metadati entro OpenURL validi, la collezione di metadati dalle bibliografie per realizzare ricerche interne, l'estrazione automatica della bibliografia dai documenti, la realizzazione di ricerche usando ParaCite.

Si tratta di una procedura ancora in fase di test e in via di sviluppo (siamo ancora alla versione 1.0 di ParaTools, disponibile solo dal 29 gennaio 2003), ma per il momento pare assai utile dotare i metadati dei riferimenti bibliografici connessi a servizi come Google, ResearchIndex e CiteBase.

ReseachIndex, già citato sopra, non è un semplice motore di ricerca, ma pur avendo al suo interno un motore per le ricerche e molti altri strumenti, è un sistema che mette a disposizione tools per la costruzione di biblioteche digitali. Il sistema ACI, Autonomous Citation Index, al suo interno consente l'indicizzazione automatica con estrazione dal testo pieno di parole significative, che vengono contestualizzate e rendono operativo il linking tra le risorse organizzate nelle sue directory.

L'importanza di ResearchIndex entro un Open Archive si esplica soprattutto nel fatto di essere uno strumento per l'analisi citazionale dei documenti, alternativo al costoso Science Citation Index dell'ISI. Pur essendo ancora agli esordi il suo database sta crescendo vertiginosamente, in quanto alimentato dalla comunità degli stessi ricercatori. Per tale ragione una connessione tramite ParaTool da un Open Archive verso ReseachIndex può risultare assai allettante.

Un altro potenziale problema è correlato al destino degli eprints, ovvero di una loro conservazione (con tutti i loro contenuti) a lungo termine. Gli accademici costruiscono le loro ricerche sui lavori di altri e regolarmente citano o fanno riferimenti alla passata letteratura. La citazione di riferimenti valida molte delle rivendicazioni che gli scienziati faranno nei loro lavori, e li incorporano nel consenso pre-esistente. Uno dei ruolo primari dei periodici a stampa è stato quello di essersi evoluti fino a divenire un archivio di pubblico dominio ben stabilizzato e con funzioni di registro pubblico delle scoperte scientifiche. Ciò era dovuto non tanto a una responsabilità dell'editore, ma al fatto che le biblioteche di ricerca, collettivamente e attraverso i loro cataloghi, hanno reso un ottimo servizio, che agiva appunto come deposito distribuito delle forme cartacee conservando a futura memoria le conoscenze racchiuse nei periodici per gli scienziati presenti e futuri.

Il passaggio verso i contenuti acquisiti attraverso licenze minaccia il ruolo di conservazione delle conoscenze scientifiche proprio delle biblioteche. Ad esempio la minaccia potrebbe includere la possibilità che l'istituzione che mette in piedi un archivio possa non essere sempre attenta alle proprie responsabilità di assicurare la conservazione a lungo termine dei contenuti. Per tale ragione sarebbe importante cominciare a riflettere sulle tecniche e sulle strategie di migrazione o di emulazione, per una conservazione del digitale (digital preservation) dei contenuti e dei metadati entro gli Open Archives italiani.

In aggiunta alle questioni pratiche già considerate, che possono ostacolare la crescita e lo sviluppo degli archivi, ci sono molti altri aspetti che provengono dal contesto culturale e scientifico di ciascuna comunità. In particolare vanno considerate le funzioni multiple che i periodici peer-reviewed attualmente giocano nel sistema della comunicazione scientifica. Mentre molti fautori dei sistemi e-prints, tra cui Harnad, sostengono che gli autori che pubblicano su periodici con comitato di refereeing lo fanno ai fini dell'impatto delle loro ricerche, ci sono innumerevoli sfaccettature nelle motivazioni degli autori, e ciò si evince dai ruoli multipli che i periodici hanno avuto nel tempo, evolvendosi e adattandosi ai contesti. Sostanzialmente andrebbero indagate almeno quattro aree motivazionali che intervengono nella scrittura di un lavoro scientifico:

  1. il ruolo dei periodici nell'attuale sistema di comunicazione scientifica
  2. le differenti motivazioni che portano a scrivere e a pubblicare un lavoro
  3. le differenze culturali tra discipline differenti
  4. la diversa natura dell'istituzione di ricerca

Odlyzko [28] afferma che mentre gli scienziati possono anche essere avventurosi a livello intellettuale, tendono ad essere conservatori nelle abitudini di lavoro, soprattutto rispetto alle nuove tecnologie. La tecnologia non basta a stravolgere i processi della comunicazione scientifica, ma vanno considerate le motivazioni, che possono essere innumerevoli e talvolta imprevedibili, spesso legate al contesto locale e, più oltre, al contesto della comunità. I rapporti di forza scientifici, ci ricorda Bourdieu [29], si esercitano attraverso rapporti di conoscenza e di comunicazione, e questo particolare rapporto di potere scientifico di tipo simbolico agisce soltanto su quelle categorie di percezione in grado di conoscerlo e riconoscerlo.

Antonella De Robbio, CAB - Università di Padova, e-mail: derobbio@math.unipd.it


Riferimenti

Liste di discussione internazionali

Siti di riferimento

Bibliografia

Note

* Il presente articolo riprende e rielabora l'intervento presentato all'Università degli Studi di Milano il 20 maggio 2003 alla Conferenza organizzata dal CILEA su Comunicazione scientifica ed editoria elettronica: la parola agli Autori. L'Utente-Autore nel circuito della comunicazione scientifica: editoria elettronica e valutazione della ricerca.

[1] Stevan Harnad, Scholarly Skywriting and the Prepublication Continuum of Scientific Inquiry, "Psychological Science", 1 (1990), p. 342-343 (reprinted in "Current Contents", 45, November 11, 1991, p. 9-13), <http://cogprints.soton.ac.uk/documents/disk0/00/00/15/81/>.

[2] Steve Lawrence, Free online availability substantially increases a paper's impact, "Nature", 411 (2001), 6837, p. 521, <http://www.neci.nec.com/~lawrence/papers/online-nature01/>.

[3] Stevan Harnad, Self-Archive Unto Others as Ye Would Have them Self-Archive Unto You, (graphics Tim Brody), <http://www.ecs.soton.ac.uk/~harnad/Temp/unto-others.html>.

[4] Giuseppe Vitello, La comunicazione scientifica e il suo mercato, "Biblioteche oggi", 21 (2003), 5, p. 37-57, <http://www.bibliotecheoggi.it/2003/20030503701.pdf>

[5] Stevan Harnad, Ingelfinger Over-Ruled: The Role of the Web in the Future of Refereed Medical Journal Publishing, "The Lancet Perspectives" 256 (December Supplement), s16, 2000, <http://cogprints.ecs.soton.ac.uk/~harnad/Papers/Harnad/harnad00.lancet.htm>.

[6] Formula suggerita da Harnad.

[7] Informazioni sul Progetto Romeo (Rights MEtadata for Open archiving), <http://www.lboro.ac.uk/departments/ls/disresearch/romeo/index.html>.

[8] <http://www.openarchives.org/data/registerasprovider.html>.

[9] Antonella De Robbio, Open Archives Initiative (OAI) in Europa: Workshop al CERN di Ginevra, "Biblioteche Oggi", maggio 2001, p. 66-69.

[10] OSI è nata nel 1993 dal sostegno finanziario di Soros con lo scopo di offrire supporto allo sviluppo di programmi (sociali, educativi, per i diritti delle donne,...) nei Paesi in via di sviluppo: Europa dell'Est, ex Unione Sovietica, Haiti, Mongolia, Africa, America Latina, etc.

[11] Per esempio: ALCME: OAIHarvester Project, <http://alcme.oclc.org/OAIHarvester.html>.

[12] Protocol Version 1.1 of 2001-07-02 messo a punto da Herbert Van de Sompel, Carl Lagoze, Document Version 2001-06-20, <http://www.openarchives.org/OAI/openarchivesprotocol.htm>.

[13] CogPrints Archive The Cognitive Sciences E-Print Archive, <http://cogprints.soton.ac.uk/>.

[14] Economista e ora docente di biblioteconomia a New York.

[15] Per la lista degli archivi vedere: <http://ideas.uqam.ca/ideas/archives.html>.

[16] <http://www.ams.org/global-preprints/umbrella-server.html>.

[17] Front End for the Mathematics ArXiv, <http://front.math.ucdavis.edu/>.

[18] <http://arXiv.org/>.

[19] MPRESS - MathNet.preprints, <http://MathNet.preprints.org/>.

[20] PubMedCentral, <http://www.pubmedcentral.nih.gov/>.

[21] Cinical Medicine NetPrint, <http://clinmed.netprints.org/>.

[22] CogPrints Archive, The Cognitive Sciences E-Print Archive, <http://cogprints.soton.ac.uk/>.

[23] <http://www.ncstrl.org/>.

[24] <http://repec.org/>.

[25] Tim Brody, Institutional OAI Archive Growth (Data collected and analysed by Tim Brody, doctoral candidate, Electronics and Computer Science, Southampton University), <www.ecs.soton.ac.uk/~harnad/Temp/tim.ppt>.

[26] Template and demo for a standardized university online-CV with harvestable performance indicators and links to the institutional Eprint Archive, <http://paracite.eprints.org/cgi-bin/rae_front.cgi>.

[27] Charles A. Schwartz, The rise and fall of uncitedness, "College & Research Libraries", 58, (1997), <http://www.ala.org/Content/NavigationMenu/ACRL/Publications/Journals_Monographic_Series/.College_and_Research_Libraries/Back_Issues_1997/January97/CandRL_January_1997_abstracts.htm>.

[28] Andrew Odlyzko, Tragic loss or good riddance? The impending demise of traditional scholarly journals, International Journal of Human-Computer Studies, 42, 1995, p. 86, <http://www.dtc.umn.edu/~odlyzko/doc/tragic.loss.long.pdf>.

[29] Pierre Bourdieu, La parola e il potere. L'economia degli scambi linguistici, Napoli, Guida 1982.




«Bibliotime», anno VI, numero 3 (novembre 2003)

Precedente Home Successiva


URL: http://www.spbo.unibo.it/aib/sezioni/emr/bibtime/num-vi-3/derobbio.htm