Bibliotime, VII, 3 - Riccardo Ridi, Claudio Gnoli e Giulia Visintin, Come vogliamo chiamarli? Operatori booleani e altre tecniche di information retrieval negli opac italiani

«Bibliotime», anno VII, numero 3 (novembre 2004)

Riccardo Ridi, Claudio Gnoli e Giulia Visintin

Come vogliamo chiamarli? Operatori booleani e altre tecniche di information retrieval negli opac italiani

Premessa

Fra la primavera 2003 e l'autunno 2004 i tre estensori di questo testo hanno coordinato una ricerca sugli accessi di tipo semantico nei cataloghi delle biblioteche italiane disponibili in Internet. Caratteristiche, partecipanti e risultati di tale ricerca sono già stati illustrati in due presentazioni pubbliche (a Firenze il 13 settembre 2004 <https://www.aib.it/aib/sezioni/toscana/conf/c040913.htm> e a Venezia il 20 ottobre 2004 <http://lettere2.unive.it/ridi/sem041020.htm>) e in un articolo recentemente pubblicato da "Biblioteche oggi" [1], nonchè sul sito del progetto "Opac semantici" stesso <http://www-dimat.unipv.it/biblio/sem/> dove sono disponibili anche i dati completi rilevati durante l'indagine e altri materiali di lavoro.

Scopo del presente articolo è illustrare i principali risultati di una indagine svoltasi parallelamente a quella sugli accessi semantici, con la medesima metodologia e con gli stessi collaboratori [2], ma condotta su un numero ridotto di opac (129 anzichè 152), anch'essa più ampiamente documentata sul medesimo sito.

Oggetto di tale indagine parallela sono stati alcuni dei principali strumenti e metodi di information retrieval comunemente disponibili non solo negli opac ma anche in qualsiasi altro tipo di base-dati, applicabili non solo agli accessi semantici ma anche a ogni altro tipo di dato che venga utilizzato per il recupero dell'informazione. In particolare, relativamente a tali strumenti e metodi, ci si è chiesti se esiste, nel campione degli opac italiani disponibili via Internet preso in esame, una adeguata standardizzazione del modo in cui essi vengono denominati; standardizzazione che sarebbe senz'altro utile ad evitare di confondere le idee agli utenti, mostrando apparenti difformità laddove invece sussiste una sostanziale conformità strutturale, e ad abituarli a un linguaggio comune che possano ritrovare nei diversi strumenti di ricerca.

Conclusioni

L'impressione soggettiva che avevamo ricavato dalle nostre esperienze di interrogazione degli opac italiani precedenti l'indagine era che tale standardizzazione fosse scarsa. L'indagine ha mostrato che in effetti essa lo è anche oggettivamente, sebbene forse in misura minore di quanto temessimo. Sarebbe auspicabile che, in futuro, gli "opac master" riducessero l'ampia e ingiustificata variabilità fra le denominazioni adottate, eliminando, in particolare, le denominazioni più eccentriche o addirittura errate.

Information Retrieval

Le due principali modalità di interazione fra un umano e una base-dati offerte dall'information retrieval sono, come noto, la scansione (o scorrimento) di liste di intestazioni o altre voci, chiamata in inglese scan o browse, e l'estrazione di un sottoinsieme dei record contenuti nella base-dati stessa rispondenti a determinate caratteristiche mediante una interrogazione che in inglese viene chiamata search o find (e talvolta query). Questo secondo metodo può esplicarsi mediante il riempimento di una maschera di ricerca grafica organizzata per campi oppure mediante una interrogazione testuale "libera", combinando secondo una specifica sintassi i vari operatori disponibili, i nomi dei campi in cui si effettua la ricerca e i valori ricercati.

All'interno di questo scenario, abbiamo individuato tre modalità di ricerca ampiamente diffuse e facilmente identificabili:

1: SCAN, ovvero lo scorrimento di liste.

2: SEARCH, ovvero l'estrazione di un sottoinsieme di dati, attraverso interfaccie sia grafiche (windows, web) che testuali (DOS, telnet).

3: SEARCH IN AMBIENTE TESTUALE, ovvero l'estrazione di un sottoinsieme di dati attraverso una interfaccia testuale, oppure di una interfaccia grafica che simuli l'ambiente testuale, riducendo la possibilità di azione dell'utente alla digitazione di una stringa di testo all'interno di una singola mascherina e all'invio di tale "comando" al sistema.

Abbiamo poi verificato, fra l'ottobre e il dicembre 2003, come le tre modalità di ricerca fossero denominate nei 129 opac presi in esame.

Scan

Possibilità di ricerca nominata in 112 opac su 129, pari all'86,8% (in 17 opac manca oppure non viene denominata in alcun modo [3]), ma denominata in tutto 123 volte, perchè 11 opac utilizzano due diverse denominazioni in punti diversi del catalogo.

52: "lista / liste / per liste / list"

21: "ricerca liste / ricerca per liste"

9: "scorri le liste / scorrimento liste"

6: "scorrimento / ricerca per scorrimento"

1: "ricerca avanzata per liste"

2: "sfoglia"

3: "browse"

4: "scan"

---

1: "ricerca guidata"

7: "indice / indici / ricerca indici"

7: "descrittori"

4: "ricerca semplice / semplice / forma semplificata"

2: "trova"

2: "invia ricerca / inizia la ricerca"

1: "parola o frase"

1: "navigazione per liste"

Le due denominazioni più popolari ("lista" e simili, con 52 occorrenze su 123, pari al 42,2%, e "ricerca per liste" o simili, con 21 occorrenze, pari al 17,1%) totalizzano complessivamente il 59,3% delle denominazioni e sono sostanzialmente corrette, sebbene poco espressive. Aggiungendo la forma a nostro avviso preferibile in assoluto ("scorrimento liste" e simili), quelle corrette ma un po' criptiche "scorrimento" e "ricerca per scorrimento" e quelle, scarsamente attestate "ricerca avanzata per liste", "sfoglia" (probabilmente influenzata dalla traduzione italiana della funzione "browse" utilizzata da Windows per la ricerca dei file), "browse" e "scan", si raggiungono in totale 98 denominazioni su 123 (pari al 79,7%) tutto sommato accettabili, volendo considerare tali anche le ultime due in inglese.

Resta un non trascurabile 20,3%, pari tendenzialmente a un quinto degli opac italiani, che utilizza, con presumibile danno per gli utenti, denominazioni insensate (perchè lo SCAN sarebbe più "guidato" del SEARCH?), sconsigliabili (il termine "navigazione" viene spesso utilizzato negli opac italiani per indicare le ricerche di tipo SURF attivabili dai link presenti nelle schede dei singoli documenti; rischia quindi di risultare ambiguo come sinonimo di SCAN) o generiche (tutte le altre denominazioni utilizzate potrebbero valere allo stesso modo anche per qualsiasi altro genere di ricerca).

Da notare, infine, che nessuno abbia pensato di tradurre "list" con il più elegante termine "elenco", preferendo piuttosto adagiarsi sul pedissequo calco "lista" o inerpicarsi verso degli improbabili "indici".

Search

Possibilità di ricerca nominata tutti i 129 opac esaminati, ma denominata in tutto 144 volte, perchè 15 opac utilizzano due diverse denominazioni in punti diversi del catalogo.

30: "campi / ricerca per campi"

11: "ricerca con più parametri / ricerca composta / multicampo / multibase / multipla"

3: "search / simple search"

1: "more detailed search"

1: "find"

---

56: "ricerca / cerca / inizia ricerca / esegui ricerca"

23: "ricerca avanzata / avanzata / raffinamento della ricerca"

14: "ricerca semplice"

1: "ricerca per parola"

---

1: "ricerca guidata"

1: "argomento"

1: "combinazione"

1: "invio"

Emerge qui la difficoltà di esprimere con chiarezza e rigore nella nostra lingua questo tipo di ricerca, differenziandola dallo SCAN. Praticamente tutte le denominazioni utilizzate possono essere considerate corrette (con l'eccezione della "ricerca guidata", che stavolta, ironicamente, cambia cavallo, e dei bizzarri e comunque rarissimi "argomento", "combinazione" e "invio"), ma tutte utilizzano termini che, a rigore, non differenziano fra tipologie di ricerca. I "campi" e le "parole" sono coinvolti sia nello SCAN che nel SEARCH, entrambi sono metodi di "ricerca", ed è opinabile quale fra i due sia, rispettivamente "semplice" o "avanzato"). Lo stesso vale, a rigore, anche per i 5 casi in cui ci si rifugia nella lingua inglese, soprattutto quando si utilizza l'ambiguo "find", mentre il "search" può confidare, per essere compreso, anche nell'onnipresenza delle omonime mascherine in ogni angolo del Web.

Rimpiangendo che nessun opac utilizzi i verbi, a nostro parere abbastanza espressivi, "estrarre" e "interrogare" o i corrispondenti sostantivi "estrazione" e "interrogazione", si può comunque considerare sufficientemente caratterizzante anche l'uso del termine "campi" che, se contrapposto a "liste", rende abbastanza l'idea del differente tipo di ricerca. Lo stesso vale, a maggior ragione, per le espressioni che, alludendo a una pluralità di parametri ("composta", "multicampo" e simili) escludono lo SCAN, che necessariamente può essere effetuato su un solo parametro alla volta.

A nostro avviso meno felice la scelta che invece risulta maggioritaria (94 occorrenze su 144, pari al 65,3%), ovvero quella di confidare eccessivamente nella traduzione "search = cerca / ricerca", affidando a uno di questi ultimi due termini italiani un improbo compito espressivo che invece forse il più specifico e tecnico termine inglese svolge sufficientemente all'interno della propria lingua.

Search in ambiente testuale

Possibilità di ricerca nominata in 72 opac su 129, pari al 55,8% (in 57 opac manca oppure non viene denominata in alcun modo [4]), ma denominata in tutto 76 volte, perchè 4 opac utilizzano due diverse denominazioni in punti diversi del catalogo.

47: "ricerca libera / libera"

4: "CCL"

1: "riga di comando"

---

9: "ricerca esperta / esperta / per esperti"

6: "ricerca avanzata / ricerca avanzata per parola"

4: "ricerca base"

1: "generica"

1: "ricerca"

1: "ricerca per campi"

1: "tutti i campi"

1: "ricerca per parole chiave su tutti gli indici"

Solo 47 denominazioni su 76 (61,8%) utilizzano o comunque alludono al sintagma "ricerca libera", che probabilmente costituisce, in italiano, uno dei modi migliori per indicare questo tipo di ricerca, purtroppo senza mai aggiungere aggettivi come "testuale" o "booleana" che lo renderebbero ancora più espressivo. Tecnicamente corretti, anche se criptici per una buona percentuale degli utenti, l'uso dell'acronimo CCL per indicare il linguaggio di interrogazione utilizzato (Common Command Language) e quello dell'espressione informatica "riga di comando". Nessuno degli opac indagati utilizza i termini "equazione" o "espressione", utilizzati, sebbene assai raramente, in altri opac italiani e stranieri, che costituirebbe invece, a nostro parere, una scelta assai azzeccata.

Discutibili, invece, le restanti 24 denominazioni, pari a quasi un terzo del totale. Ben 15 (19,7%) alludono a una ricerca "avanzata" o "per esperti" che potrebbe essere qualsiasi cosa, non distinguendosi, in particolare, dal SEARCH grafico con mascherine, spesso denominato nello stesso modo. Che la coppia "semplice / complesso" sia difficilmente maneggiabile nel contesto di cui ci stiamo occupando lo dimostrano poi le 5 denominazioni che, inversamente, sottolineano che questa ricerca sarebbe "di base" o "generica".

Seguono poi, tutti con una sola attestazione, due genericissimi "ricerca" e "ricerca per campi" e due maldestri tentativi di alludere ad alcune caratteristiche di questo tipo di ricerca: "tutti i campi" e "ricerca per parole chiave su tutti gli indici".

Operatori booleani

Nell'ambito del SEARCH testuale, dove le tecniche dell'information retrieval possono scatenare tutta la loro potenza con la massima libertà, regnano da protagonisti i tre principali operatori booleani, AND, OR e NOT, anch'essi monitorati dalla nostra indagine per verificare come vengano denominati nei 129 opac esaminati.

AND

Operatore nominato in 118 opac su 129, pari al 91,5% (in 11 opac manca oppure non viene denominato in alcun modo [5]), ma denominato in tutto 126 volte, perchè 8 opac utilizzano due diverse denominazioni (anche in contemporanea, per maggiore chiarezza).

105: "and"

5: "compresenza"

2: "intersezione"

1: "restringere"

----

11: "e"

2: "e anche"

Non si sa bene se rallegrarsi dell'83,3% di canonici "and" e degli sporadici tentativi di affiancarli a tentativi di sintetica spiegazione in italiano ("compresenza", "intersezione", forse anche "restringere") oppure se dolersi del fatto che in Italia tendenzialmente ben un opac su dieci utilizza invece soltanto dei maldestri tentativi di traduzione che rischiano di fuorviare irrimediabilmente l'utente, utilizzando congiunzioni che alludono a un allargamento, anzichè a un restringimento, della ricerca.

OR

Operatore nominato in 116 opac su 129, pari al 89,9% (in 13 opac manca oppure non viene denominato in alcun modo), ma denominato in tutto 123 volte, perchè 7 opac utilizzano due diverse denominazioni (anche in contemporanea, per maggiore chiarezza).

102: "or"

1: "espandere"

1: "unione" [abbinato a "or"]

----

1: "unione" [da solo]

11: "o"

4: "alternativa"

3: "oppure"

Analoghe considerazioni per il - pur minore - 82,9% di impeccabili "or" (solo due volte abbinati, a mo' di spiegazione, a "espandere" o a "unione") e il pessimo 15,4% complessivo degli ambigui "o" e "oppure" (che in italiano sono neutri rispetto alla più espressiva coppia latina "vel" e "aut"), criptici (sfido a capire il termine "unione" lasciato a se stesso) o addirittura errati (ben 4 "alternativa" che piuttosto che all'OR paiono alludere al ben diverso booleano XOR, equivalente del latino "aut).

NOT

Operatore nominato in 95 opac su 129, pari al 73,6% (in 34 opac manca oppure non viene denominato in alcun modo), ma denominato in tutto 101 volte, perchè 6 opac utilizzano due diverse denominazioni (anche in contemporanea, per maggiore chiarezza).

62: "not"

25: "and not"

3: "non"

1: "but not"

1: "ma non"

---

5: "e no"

3: "non compresenza"

1: "restringere"

Il NOT conferma la sua fama di booleano di base difficile da capire e da usare, totalizzando ben 9 casi (pari all'8,9% su 101) di denominazioni clamorosamente errate ("e no", "non compresenza", "restringere"). Degni di nota però l'86,1% di corretti "not" e "and not", così come i 3 tutto sommato accettabili "non" e i 2 originali, ma efficaci "ma non" e "but not", con l'ultimo che pare una curiosa traduzione inversa del penultimo.

Surf

Accanto al SEARCH e allo SCAN si potrebbe forse parlare anche di un terzo tipo di ricerca, talvolta denominato SURF (o, tanto per creare confusione, di nuovo browse), consistente nel navigare ipertestualmente partendo da una singola scheda bibliografica e seguendo link che "lanciano" a loro volta scorrimenti di liste (SCAN), estrazioni di dati (SEARCH) oppure collegamenti puntuali a singole schede o ad altri tipi di metadati (ad esempio la holding con le informazioni su localizzazione e disponibilità degli esemplari del documento descritto). Non sbaglierebbe però del tutto neppure chi sostenesse che tale SURF ipertestuale, risolvendosi alla fin fine in una serie di rinvii a ricerche di tipo SEARCH e SCAN, non sia dotato di una propria primitiva originalità, ma vada ad essi ricondotto.

Senza addentrarci in questa sede nella disputa sull'originalità o meno del SURF, abbiamo usato il nostro solito campione di 129 opac anche per misurare quale fosse la percentuale di opac che prevede link ipertestuali a partire dai singoli record bibliografici e il tipo di link più diffuso.

106 (82,1% su 129): presenza di link ipertestuali di un qualsiasi genere

78 (60,4% su 129, 73,6% su 106): presenza di link di tipo SEARCH

46 (35,6% su 129, 43,4% su 106): presenza di link di tipo SCAN

25 (19,4% su 129, 23,6% su 106): presenza di link "uno a uno"

Search in ambiente grafico

Ulteriori risultati emersi dall'indagine sono stati:

L'uso dell'AND come operatore di default (non sempre esplicitato) nella stragrande maggioranza delle interfacce grafiche per il SEARCH (che utilizzano una serie più o meno ampia di mascherine da riempire coi termini ricercati dagli utenti) sia "fra" campi che "dentro" i campi stessi.
L'esistenza di una vasta gamma di insiemi di mascherine differenziate per il SEARCH grafico, fra le quali il più diffuso è quello che mostra contemporaneamente tutti i campi interrogabili (77 casi, pari al 59,7%), mentre quello che ipotizzavamo fosse un possibile standard di fatto per le ricerche di base (ovvero autore, titolo e soggetto, ciascuno presente una sola volta) è risultato scarsamente adottato (19 casi, pari al 14,7%).

Riccardo Ridi, Dipartimento di studi storici - Universit� "Ca' Foscari" di Venezia, e-mail: ridi@aib.it

Claudio Gnoli, Dipartimento di matematica - Universit� degli studi di Pavia, e-mail: gnoli@aib.it

Giulia Visintin, bibliotecaria consulente, e-mail: visintin@aib.it

Note

[1] Claudio Gnoli, Riccardo Ridi, Giulia Visintin, Di che parla questo catalogo? Un'indagine sugli accessi semantici negli opac italiani. "Biblioteche oggi", 22 (2004), 8, p. 23-29, oppure <http://www.bibliotecheoggi.it/2004/20040802301.pdf>.

[2] In particolare, i dati relativi ai 129 opac qui analizzati sono stati rilevati da Samantha Biolcati, Federica Busetto, Serena Cairo, Laura Carnelos, Antonella Daulerio, Fiamma De Salvo, Claudia Favaron, Silvia Girardello, Chiara Guidolin, Laura Paccagnella, Alessia Savio, Francesca Tedeschi e Diego Vedoato.

[3] Parrebbe strano che fosse possibile non attribuire alcun nome a un tipo di ricerca effettivamente presente, ma ciò spesso accade perchè essa viene eseguita attivando, in una interfaccia grafica, il nome del campo su cui si vuole eseguire la ricerca.

[4] In questo caso la maggioranza delle assenze è dovuta all'inesistenza nell'opac esaminato di questo tipo di ricerca.

[5] L'assenza in questo caso, così come per i successivi due operatori booleani presi in esame, dipende quasi sempre dalla concomitanza fra assenza di SEARCH testuale e non esplicitazione degli operatori utilizzati per default nel SEARCH grafico.

«Bibliotime», anno VII, numero 3 (novembre 2004)

URL: http://www.spbo.unibo.it/aib/sezioni/emr/bibtime/num-vii-3/ridiecc.htm