«Bibliotime», anno IX, numero 1 (marzo 2006)

Precedente Home Successiva



Elena Bianchi

Banche Dati bibliografiche a confronto. PsycINFO, Current Contents Search e Web of Science: quale sovrapposizione di contenuti?



Introduzione

Da qualche tempo, nel mercato delle risorse elettroniche, è in atto un rilevante processo di acquisizione e/o concentrazione, che da un lato ha determinato la scomparsa di alcuni importanti protagonisti come Silver Platter, dall'altro ha rimesso in discussione gli equilibri raggiunti. Produttori ed editori stanno infatti tentando di raggiungere posizioni vantaggiose, in modo da consolidare le proprie fette di mercato anche attraverso lo sviluppo di piattaforme tecnologiche finalizzate alla massima integrazione tra riviste elettroniche e banche dati ovvero, tra letteratura primaria e secondaria.

Questa serrata concorrenza tra i maggiori editori e produttori si concretizza anche attraverso lo sforzo promozionale nei confronti delle rispettive piattaforme tecnologiche proprietarie, con l'intento strategico di fidelizzare l'utenza e favorire la vendita di altri prodotti e servizi supportati dalla stessa tecnologia. Si pensi, ad esempio, a Ovid Web Gateway, a Elsevier con ScienceDirect e Scopus o a ISI con Web of Knowledge.

In questo contesto in continua evoluzione, le università sono chiamate a un continuo processo di valutazione ed analisi finalizzato all'ottimizzazione della spesa dedicata alle risorse elettroniche. Anche l'Ateneo di Padova, ovviamente, sta procedendo ad una serie di valutazioni comparative delle principali banche dati bibliografiche.

Talvolta, al momento dei rinnovi, l'attenzione si concentra più sulle statistiche di utilizzo che sulle funzionalità e sul contenuto delle varie risorse, poiché da un lato tali elementi sono stati oggetto di specifiche valutazioni al momento della prima acquisizione, dall'altro deve essere tenuto in considerazione un altro elemento importante: la resistenza al cambiamento da parte dell'utente finale

Vi è infatti, da parte dell'utilizzatore abituale delle banche dati bibliografiche e delle risorse informative in generale, una certa difficoltà nel passare da piattaforme conosciute ad altre interfacce, anche se più funzionali o con maggiori servizi aggiuntivi. Sicuramente questa diffidenza che molti utenti hanno verso i mutamenti d'interfaccia si va attenuando con il diffondersi di una maggiore consuetudine al web, ma in molti casi deve essere ancora tenuta in considerazione.

Questa difficoltà si è presentata anche di recente all'Università di Padova quando, insieme a molti atenei italiani, si è deciso di spostare sulla piattaforma ISI i Current Contents che nel nostro ateneo sono storicamente una delle banche dati più consultate dall'utenza e tradizionalmente costituiscono un diffuso e importante riferimento bibliografico per la ricerca scientifica.

All'interno di questo scenario, e alla luce delle prospettive di maggiore integrazione tra le risorse derivanti dall'adozione di SFX e Metalib, il Settore Acquisizioni del Sistema Bibliotecario dell'Ateneo di Padova, sta riesaminando in dettaglio i contenuti di alcune tra le risorse informative in abbonamento, valutando nello stesso tempo i servizi offerti dalle varie piattaforme, sempre nell'ottica di una ottimizzazione dei costi e delle specifiche esigenze dell'utenza.

Notizie di simili iniziative giungono anche da alcune grandi biblioteche digitali di università americane come la Pitt Digital Library [1] o la California Digital Library [2] che, a causa di una revisione di budget, hanno deciso di dismettere alcune banche dati, tra cui i Current Contents, sostenendo che i contenuti di quest'ultima siano coperti al 100% da Web of Science.

A riscontro di tali affermazioni, si sono cercati in letteratura studi recenti relativi alla duplicazione di record bibliografici in differenti banche dati. I lavori più significativi risalgono però l'uno al 2004 - ma su uno studio condotto nel 2000 - in cui vengono messe a confronto copertura e frequenza di aggiornamento di Web of Science con Current Contents Connect [3], e l'altro pubblicato nel 2003, che esamina la sovrapposizione di contenuti tra più risorse, ma che si riferisce ad una elaborazione fatta nel 2002 di dati raccolti nel 1998 [4].

Tale studio evidenzia, tra l'altro, che la duplicazione dei record in differenti database può essere dovuta a vari fattori, come, per esempio, la multidisciplinarietà del contenuto dell'articolo citato, che fa in modo che la stessa notizia sia inclusa in più banche dati, e ipotizza che la duplicazione di un record sia in relazione col valore dell'articolo che il record rappresenta.

E tuttavia, in un contesto di ottimizzazione delle risorse dovuto a continue riduzioni del budget, bisogna tener presente che ogni duplicazione di informazione determina una duplicazione anche del costo della stessa.

Per poter disporre di dati più completi ed aggiornati si è deciso di effettuare uno studio comparativo sperimentale di tre tra le banche dati bibliografiche più consultate in Ateneo, con la prospettiva di allargare tale verifica ad altre risorse. Le banche dati oggetto del presente studio sono Currents Contents Search e Web of Science, entrambe banche dati multidisciplinari dell'ISI (Institute for Scientific Information); e PsycINFO, banca dati in ambito psicologico dell'APA (American Psychological Association).

Current Contents è storicamente la serie di pubblicazioni più conosciuta e consultata dell'ISI. E' composta da sette sezioni, ognuna delle quali dedicata a un particolare ambito disciplinare: Agricultural Biology & Environmental Science, Clinical Medicine, Engineering Computing and Technology, Life Sciences, Physical Chemical & Earth Sciences, Social and Behavioral Sciences, Arts and Humanities.

Current Contents Search è la versione elettronica di tale pubblicazione. Fornisce l'accesso a oltre 8,000 delle maggiori riviste scientifiche e accademiche e a più di 2,000 volumi di conferenze, atti di congresso, workshop. Current Contents Connect è, invece, la nuova versione on-line, che aggiunge alle sette edizioni dei Current Contents due collezioni di periodici, Business Collection e Electronics & Telecommunications Collection, e offre l'accesso a una selezione di oltre 4.400 siti web scientificamente rilevanti.

Dall'inizio del 2006, l'Ateneo di Padova ha sospeso l'accesso a Current Contents Search su ERL (Electronic Reference Library) e reso accessibille la versione via web, Current Contents Connect, dalla piattaforma Web of Knowledge (WOK) della ISI che supporta anche la banca dati Web of Science (WOS) e la risorsa Journal of Citation Reports (JCR) sempre dell'editore ISI.

Si è scelto di condurre il presente studio su Current Contents Search versione ERL della Ovid Technologies – Silver Platter Information, piuttosto che su Current Contents Connect, in quanto, al momento della raccolta dei dati, novembre 2005, la versione su WOK era solo promozionale e non si avevano garanzie né di stabilità di collegamento che di contenuti.

L'altra banca dati multidisciplinare presa in esame è Web of Science (WOS) prodotta dall'ISI e composta da tre sezioni Science Citation Index (SCI), Social Science Citation Index (SSCI), Arts and Humanities Citation Index (AHCI), per un totale di circa 8.700 periodici tra i più prestigiosi e di maggiore fattore di impatto.

Oltre ad offrire una tipologia di ricerca tradizionale, Web of Science ha la peculiarità di indicizzare anche i riferimenti bibliografici inclusi negli articoli, rendendo possibile la "Cited Reference Search". Questa tipologia di ricerca offre la possibilità di navigare attraverso la rete delle citazioni, per risalire agli autori che hanno citato un determinato lavoro, evidenziando così come i risultati di una determinata ricerca abbiano influenzato il mondo scientifico.

PsycINFO, dell'American Psychological Association (APA), è la terza risorsa di cui sono stati valutati i contenuti. Si tratta di una banca dati che indicizza letteratura in ambito psicologico e di discipline correlate, come la medicina, psichiatria, scienze dell'educazione, sociologia, etc, e fornisce record bibliografici relativi a libri, capitoli di libri, tesi, rapporti tecnici e articoli pubblicati in oltre 2000 periodici.

In questo studio sono stati valutati i risultati di un numero cospicuo di ricerche eseguite sulle tre banche dati allo scopo di determinare la percentuale di sovrapposizione tra i contenuti delle stesse.

Metodologia

Allo scopo di esaminare la sovrapposizione esistente fra le tre risorse in esame, è stata inizialmente valutata la possibilità di mettere a confronto le liste fornite dagli editori con i titoli dei periodici coperti da ciascuna banca dati, così come effettuato in alcune precedenti indagini comparative tra database bibliografici.

Si è però preferito procedere diversamente, poiché tale metodologia presuppone che tutti i periodici siano indicizzati in modo completo, mentre non è possibile determinare con certezza se all'interno della banca dati la singola rivista sia indicizzata solo parzialmente con la selezione degli articoli rilevanti. Inoltre, non sempre è chiaro dalla lista fornita dall'editore quale sia lo storico della rivista, cioè quando il periodico ha cominciato ad essere indicizzato, come nota Antonella De Robbio in un'indagine comparativa tra banche dati bibliografiche pubblicata nel 1999 [5].

Si è così pensato di creare un campione di dati casuali che fosse sufficientemente significativo per numero, ma che prescindesse dalla effettiva copertura di periodici di ciascuna banca dati e che fosse piuttosto legata a singole "query". La scelta di privilegiare una ricerca per autore rispetto ad una per argomento è stata determinata dal fatto che le tre banche dati presentano differenti modalità di ricerca per argomento e il confronto tra i risultati avrebbe prodotto dati poco significativi.

Il campione da esaminare è stato così definito: dal Browsable Author Index di PsycINFO è stata fatta una selezione preliminare di 206 autori nell'intervallo temporale 2000–2005. Nella selezione degli autori sono stati tenuti in considerazione i seguenti fattori:

  1. sono stati privilegiati autori con un numero di record simile nel periodo temporale inizialmente considerato 2000– 005: autori con presenza di un numero troppo elevato (maggiore di 30) o troppo esiguo (inferiore a 5) di record non sono stati presi in considerazione;
  2. la scelta è stata limitata agli autori con cognome ed iniziale del nome di battesimo univoci in PsycINFO, per limitare le possibili omonimie in CC e WOS nei cui indici autori sono presenti solo il cognome e la iniziale del nome di battesimo.

Sulla base dei risultati di questa prima ricerca si è selezionato ulteriormente il campione, escludendo quei casi in cui si presentavano:

  1. dubbi di omonimie;
  2. record doppi all'interno della stessa banca dati;
  3. varianti nello spelling;

Si è arrivati così alla definizione del campione definitivo composto di 139 autori. A questo punto si è scelto di restringere l'intervallo temporale da prendere in considerazione dal 2001 al 2004, in modo da limitare al massimo le differenze di aggiornamenti tra le tre banche dati.

Le ricerche dei 139 autori sono state effettuate in PsycINFO, in CC Search completo delle sette sezioni e in WOS completo dei tre indici. I risultati sono stati ordinati evidenziando la tipologia di pubblicazione (book, edited book, dissertation abstract, journal article, etc.), in modo da poter mettere in relazione tra di loro solo citazioni relative ad articoli. I record risultanti dalle ricerche effettuate sono stati infine esaminati in modo da individuare le sovrapposizioni tra le tre banche dati.

 

Risultati

La tabella 1 e la figura 1 ben schematizzano il risultato ottenuto in termini di sovrapposizione tra le banche dati prese in esame; in particolare si riportano le percentuali di copertura e di unicità per ogni coppia di banche dati.

 

Tabella 1

 

Figura 1

 

Nella Figura 2 viene presentata invece la distribuzione, nell'insieme delle tre banche dati, delle citazioni bibliografiche recuperate nel presente lavoro. I numeri sono relativi alle citazioni univoche, non al numero complessivo di record rintracciati. A scopo esemplificativo, il numero 1032 che compare nell'insieme intersezione di PsycINFO con CCSearch e WOS, è relativo a tutte quelle citazioni bibliografiche che sono state rintracciate in tutte e tre le banche dati e quindi corrisponde a 3096 record bibliografici effettivi.

 

Figura 2

 

La figura 3 esprime in percentuale i dati riportati nella figura 2, evidenziando la percentuale di sovrapposizione esistente tra i contenuti delle 3 banche dati.

 

Figura 3

 

Considerazioni finali

A conclusione del presente lavoro emergono alcuni dati:

  1. Il 48,9 % delle citazioni bibliografiche rintracciate in questo studio è presente in tutte e tre le banche dati, il 20,3 % è presente in due delle tre banche dati. Solo il 30,9% è unica, cioè è presente solamente in una delle 3 banche dati (v. fig. 3).
  2. Current Contents, delle tre banche dati prese in esame complessivamente, è quella con la percentuale minore di record univoci (0,8%) ( v. fig. 3).
  3. Web of Science, pur con una buona percentuale di sovrapposizione di contenuti con le altre due banche dati, è quella con il numero maggiore di citazioni bibliografiche univoche (15,3%) (v. fig. 3).
  4. I record bibliografici contenuti in Current Contents Search sono presenti al 98,5% anche in Web of Science. La percentuale di unicità di Current Contents rispetto a Web of Science è dell'1,5% (v. fig.1).
  5. I record bibliografici rintracciati in Web of Science sono presenti al 80,2% anche in Current Contents. La percentuale di unicità di contenuti di Web of Science rispetto a Current Contents è del 19,8% (v. fig. 1).

I dati dei punti 4 e 5 sono in linea con i risultati riportati da Butkovich, Smith e Hoffman nel loro lavoro di indagine comparativa tra WOS e CC [6] che, mettendo a confronto le liste di periodici indicizzati dalle due banche dati, riscontra una unicità di titoli contenuti in Current Contents rispetto a Web of Science inferiore allo 0,1%, e un'unicità di titoli di Web of Science rispetto a Current Contents del 10%.

Se si considerano questi risultati, è evidente come ci siano le opportunità di intraprendere un percorso di razionalizzazione nella scelta delle risorse informative disponibili sul mercato perseguendo l'obiettivo di una maggiore ottimizzazione degli investimenti.

Inoltre, da parte dell'utenza specialistica pervengono richieste sempre più precise relative a differenze di contenuti, aggiornamenti e servizi offerti dalle varie banche dati, e solo con questo tipo di indagini si possono ottenere dei dati che possano essere di supporto all'utente nella difficile scelta dello strumento più adeguato a fornire risposta al suo specifico bisogno informativo.

Il presente studio mette a confronto solo alcune delle banche dati che l'Ateneo di Padova mette a disposizione dei suoi utenti. Ulteriori verifiche che prendano in esame anche altre banche dati in altri ambiti disciplinari, potrebbero fornire elementi aggiuntivi di analisi a disposizione di quanti devono prendere la difficile e delicata decisione di acquisire o dimettere una risorsa.

Elena Bianchi, Biblioteca Metelli del Cis di Psicologia - Università degli Studi di Padova, e-mail: elena.bianchi@unipd.it


Bibliografia

Antonella De Robbio, Indagine comparativa tra database bibliografici, " Biblioteche oggi", 17 (1999) 7, p. 56-69.

American Psychological Association APA, <http://www.apa.org/> (ultimo accesso 15/02/06).

Belver C. Griffith - Howard D. White - M. Carl Drott, Tests of methods for evaluating bibliographic databases: an analysis of the National Library of Medicine. "Journal of the American Society for Information Science", 37 (1986) 4, p. 261-270.

Birger Hjørland - Jeppe Nicolaisen, Bradford's law of scattering: ambiguities in the concept of "Subject", in Lecture Notes in Computer Science, edited by F. Crestani and I. Ruthven, Berlin, Springer-Verlag, 2005, p. 96-106.

California Digital Library, <http://www.cdlib.org/> (ultimo accesso 17/02/06).

Current Contents, a cura di Antonella De Robbio, <http://www.math.unipd.it/~derobbio/cc.htm>. (ultimo accesso 31 gennaio 2006).

E. J. Yannakoudakis - F. H. Ayres - J. A. W. Huggil, Matching citations between non-standardized databases, "Journal of the American Society for Information Science", 41 (1990) 8, p. 599-610.

Joan Parker, Evaluating bibliographic database overlap for marine science literature using an ecological concept. "Issues in science and technology librarianship", 42, Spring 2005, <http://www.istl.org/05-spring/refereed-2.html>.

Institute for Scientific Information ISI, <http://www.isinet.com/> (ultimo accesso 15/02/06).

Nancy J. Butkovich - Helen F. Smith - Claire E. Hoffman, Database reviews and reports. A comparison of updating frequency between Web of Science and Current Contents Connect, "Issues in Science and Technology Librarianship", 39 , Winter 2004, <http://www.istl.org/04-winter/databases.html>.

Peter Ingwersen - Finn Hjortgaard Christensen, Data set isolation for bibliometric online analyses of research publications: fundamental methodological issues. "Journal of the American Society for Information Science", 48 (1997) 3, p. 205-217.

Peter Jacso, Visualizing overlap and rank differences among web-wide search engines, "Online Information Review", 29 (2005) 5, p. 554-560, <http://www.emeraldinsight.com/Insight/viewContentItem.do?contentType=Article&contentId=1523699>.

Pitt Digital Library, <http://digital.library.pitt.edu/> (ultimo accesso 17/02/06).

PsycINFO coverage list, <http://www.apa.org/psycinfo/about/covlist.html> (ultimo accesso 15/02/2006).

Robert G. Janke, Current Contents Connect and PubMed - a comparison of content and currency, "Health Information and Libraries Journal", 19 (2002), p. 230-232.

Terence A. Brooks, Repetitive bibliographical information in relational databases, "Journal of the American Society for Information Science", 39 (1988) 1, p. 2-7.

The Thomson Scientific journal lists, <http://scientific.thomson.com/mjl/> (ultimo accesso 31 gennaio 2006).

The Thomson Scientific journal selection process, <http://scientific.thomson.com/free/essays/selectionofmaterial/journalselection/> (ultimo accesso 31 gennaio 2006).

Web of Science, <http://scientific.thomson.com/products/wos/> (ultimo accesso 15/02/06).

William W. Hood - Conception S. Wilson, Overlap in bibliographic databases, "Journal of the American Society for Information Science and Technology", 54 (2003) 12, p. 1091-1103.

William W. Hood - Conception S. Wilson, The scatter of documents over databases in different subject domains: how many databases are needed?, "Journal of the American Society for Information Science and Technology", 52 (2001) 14, p. 1242-1254.

Note

[1] Notizia della dismissione di Current Contents dalla Pitt Digital Library, <http://www.library.pitt.edu/articles/database_info/current_cont.html> (ultimo accesso 15/02/06).

[2] Notizia della dismissione di Current Contents dalla California Digital Library, <http://www.cdlib.org/inside/collect/deselection_faq.html> (ultimo accesso 15/02/06).

[3] Nancy J. Butkovich - Helen F. Smith - Claire E. Hoffman, Database reviews and reports. A comparison of updating frequency between Web of Science and Current Contents Connect, "Issues in Science and Technology Librarianship", 39 , Winter 2004, <http://www.istl.org/04-winter/databases.html>.

[4] William W. Hood, Conception S. Wilson, Overlap in bibliographic databases, "Journal of the American Society for Information Science and Technology", 54 (2003) 12, p. 1091-1103.

[5] Antonella De Robbio, Indagine comparativa tra database bibliografici, " Biblioteche oggi", 17 (1999) 7, p. 56-69.

[6] Nancy J. Butkovich - Helen F. Smith - Claire E. Hoffman, Database reviews and reports. A comparison of updating frequency between Web of Science and Current Contents Connect, "Issues in Science and Technology Librarianship", 39 , Winter 2004, <http://www.istl.org/04-winter/databases.html>.




«Bibliotime», anno IX, numero 1 (marzo 2006)

Precedente Home Successiva


URL: http://static.aib.it/aib/sezioni/emr/bibtime/num-ix-1/bianchi.htm