«Bibliotime», anno XIX, numero 1 (marzo 2016)

Precedente Home Successiva



Annarita Liburdi

Testi digitalizzati, precisione e Open access



Abstract

After a brief history of the research activity on digital humanities of the Institute for the European Intellectual Lexicon and the History of Ideas of National Research Council (ILIESI-CNR), the article deals with the importance of accuracy in digital texts on the web. Special attention is paid to open access texts published by scientific and research institutions.

1. La biblioteca digitale dell'Istituto per il Lessico Intellettuale Europeo e Storia delle Idee

Se la biblioteca digitale è "una biblioteca 'immateriale' in cui vengono conservati e resi disponibili esclusivamente documenti digitali (originali o convertiti da originali cartacei), gestiti e catalogati elettronicamente, [… e se] nessuna biblioteca digitale può considerarsi completa senza prendere in considerazione, accanto ai documenti digitali 'nativi' anche quelli 'digitalizzati'" in un momento successivo rispetto alla pubblicazione originaria su supporti analogici (carta manoscritta e stampata, microfilm e microfiches, ecc.)" [1], allora possiamo dire che le origini della biblioteca digitale dell'Istituto per il Lessico Intellettuale Europeo e Storia delle Idee del CNR (ILIESI) [2] sono molto remote, e risalgono addirittura a tempi precedenti all'avvento stesso dell'era digitale.

L'Istituto, negli oltre cinquant'anni di attività, ha acquisito una grande esperienza nel trattamento dei testi perché il suo ambito di ricerca è la storia della terminologia di cultura e scientifica. La peculiarità della sua attività è quella di concentrare il lavoro sull'analisi lessicale dei testi di cultura, applicando alla storia della filosofia e della scienza i procedimenti tipici dell'analisi lessicografica. Di qui, la necessità di costituire un centro bibliografico specializzato dove l'ILIESI, fin dalla prima metà degli anni Sessanta, ha raccolto testi antichi, manoscritti e documenti d'epoca relativi alla storia della scienza, trattati di medicina, opere di fisica e matematica, saggi giuridici e filosofici. Si tratta però, nella maggior parte dei casi, di ristampe anastatiche, microfilm o microfiches [3], solo in qualche raro caso di stampe originali.

Nei primi anni, la ricerca si è concentrata sulla schedatura terminologica, eseguita manualmente, delle opere ritenute di particolare interesse per la ricostruzione del lessico intellettuale europeo. Negli anni Sessanta si era agli albori di quella che sarebbe stata chiamata informatica umanistica e i metodi della scienza dell'informazione si basavano ancora sul trattamento di schede perforate o di dati registrati sui primi nastri magnetici [4], seguita dalla correzione manuale dei tabulati; l'applicazione del metodo informatico si risolveva in pratica nell'esecuzione automatica di un lavoro impostato con criteri manuali [5].

Con il tempo, è cambiato l'approccio e di conseguenza la gestione del materiale collezionato. Alla fine degli anni Settanta fu sviluppato un sistema informatico per la gestione dell'archivio bibliografico e di quello terminologico, e all'inizio degli anni Ottanta la documentazione raccolta, comprendente anche il testo in lingua naturale da citare [6], è servita ad implementare una banca dati: la Banca dati dei testi filosofici dell'età moderna.

Durante la fase di digitalizzazione da tastiera si presentarono alcuni problemi, soprattutto in relazione alla conservazione degli elementi informativi presenti nei brani scelti, sia dal punto di vista grafico sia da quello del contenuto. L'uso dei corsivi, del maiuscoletto, la presenza di note, le citazioni da altri autori, l'apparato dei titoli e delle glosse non erano di facile rappresentazione, tenuto conto che i testi provenivano da edizioni fra loro molto diverse e di varie epoche; si trattava però di informazioni assai utili per chi doveva selezionare le citazioni e che comunque non dovevano andare perse nella riproduzione dei testi in formato digitale. Per consentire il recupero di tali informazioni si è fatto quindi ricorso allo sviluppo di due categorie di marcatori che non fossero troppo invasivi dei testi e ne consentissero un'agevole lettura: uno per la rappresentazione delle caratteristiche tipografiche del testo, e uno per le informazioni relative al contenuto.

Nel corso degli anni Ottanta la fisionomia della banca dati è cambiata in modo considerevole perché, grazie ai progressi della tecnologia, è stato possibile includere accanto al vecchio materiale selettivo un maggior numero di opere complete, e contemporaneamente è stato possibile procedere nell'integrazione di quelle preesistenti. Nel 1997 inoltre la sua implementazione in ambiente web ha consentito la trasformazione dei marcatori, contenuti nei testi memorizzati, in informazioni di tipo grafico o ipertestuale.

Le opere presenti in banca dati sono, nella maggior parte dei casi, trascrizioni di testi a stampa in edizioni antiche, soprattutto del ʼ600 e del ʼ700, accompagnati in alcuni casi dalla riproduzione fotografica del testo originale. La collezione attualmente si compone di 74 testi in lingua latina, per un totale di circa 3.500.000 di occorrenze di parole, 21 testi in lingua inglese, per un totale di circa 1.000.000 di occorrenze e di 30 testi in lingua italiana, per un totale di circa 1.000.000 di occorrenze. Per ogni testo sono disponibili le informazioni bibliografiche sull'edizione usata.

La Banca dati dei testi filosofici dell'età moderna [7], nata come archivio di materiale documentario, nel tempo è diventata un complesso strumento per svolgere ricerche lessicografiche, terminologiche, ipertestuali, grafiche ed editoriali sulla letteratura filosofica e scientifica del Seicento e Settecento. A questo storico strumento, negli anni, si sono aggiunte molte altre risorse digitali [8] che rappresentano le diverse collezioni della biblioteca digitale dell'ILIESI. Le raccolte digitali, attualmente costituite da oltre 480 testi, sono state pubblicate sul sito web a partire dal 2001; esse riflettono precise linee di ricerca dell'Istituto avviate vari anni prima.

Tutto il materiale documentario presente nelle collezioni, che sono omogenee e coerenti al loro interno, è costituito da materiali differenti per forma e contenuto: testi trascritti e codificati in formato proprietario o in formati standard e ricercabili; testi in solo formato immagine (disponibili alla lettura sequenziale); testi trascritti accompagnati dalle immagini della stampa originale; testi digitalizzati (sia in formato immagine che testo) corredati di un indice di navigazione.

Per superare i limiti di quella che, ad un primo esame, potrebbe apparire una risorsa priva di un metodo e di uno strumento unitario per il recupero dell'informazione (in tal senso, si è parlato anche di una 'Babele Informatica'), dal 2013 è stato aggiornato e sviluppato il software di gestione della Banca dati dei testi filosofici dell'età moderna. L'aggiornamento, grazie al supporto finanziario del Progetto Migrazioni del CNR [9], ha reso possibile armonizzare la modalità di ricerca nei vari archivi e, nel tempo, tale investimento favorirà la ricerca integrata su tutte le risorse e l'interoperabilità degli archivi.

2. Digitalizzazione e precisione

I metodi per trasformare un testo dalla sua versione cartacea a quella digitale sono fondamentalmente due: la digitazione da tastiera con personale dedicato o, in alternativa, l'acquisizione con scanner seguita dall'applicazione di sistemi di riconoscimento ottico dei caratteri (OCR).

La digitazione - o, come sarebbe meglio dire in questi casi, la ri-digitazione da tastiera - è una metodologia consolidata, estremamente impegnativa dal punto di vista economico e temporale, che affonda le sue radici nei copisti che trascrivevano i codici prima dell'invenzione della stampa; questa tecnica prevede, ora come allora, personale addestrato e dedicato. Il testo ottenuto attraverso la digitazione e la codifica è generalmente affidabile ma necessita in ogni caso di una fase di revisione. Negli ultimi anni la tendenza è stata quella di abbandonare questa tecnica in favore dell'acquisizione automatica grazie ai sistemi di OCR: programmi in grado di convertire un'immagine contenente testo, in testo digitale modificabile con un normale editor e che permettono di acquisire grandi quantità di testi in tempi veloci.

La tecnologia OCR [10] lavora innanzitutto scomponendo l'immagine della pagina digitale nelle parti più piccole che la compongono, con un analisi dell'impaginato per arrivare ad individuare blocchi di caratteri che sono, a loro volta, ulteriormente suddivisi e confrontati, grazie al motore dell'OCR, con i più importanti dizionari di caratteri provenienti da vari tipi (fonts) e lingue. Una volta individuata una probabile uguaglianza il software la registra, riconosce un set di caratteri del blocco parola e così procede fino a che tutti i caratteri non sono stati individuati. La parola viene quindi confrontata dal motore dell'OCR con i maggiori dizionari e finalmente identificata.

Per tale motivo, una volta che il dizionario dell'OCR crede di riconoscere una parola e, ingannandosi per i motivi più disparati, sceglierà la forma errata, allora la riproporrà tutte le volte che la incontrerà determinando in tal modo un errore ricorrente. La consapevolezza che il sistema propone errori ricorrenti, potrà essere utilmente sfruttata durante la fase di revisione del testo. I fattori di riconoscimento di caratteri e parole costituiscono la chiave della precisione dell'OCR; il motore dell'OCR può raggiungere i più alti livelli di correttezza e precisione grazie alla capacità di combinare tra loro i diversi caratteri.

Con i moderni OCR il riconoscimento esatto di un testo scritto in alfabeto latino (quale può essere un testo scritto a macchina o stampato e successivamente scansionato) è ormai considerato un problema risolto, con tassi di riconoscimento uguali o superiori al 99% se la stampa è successiva al 1950. Considerato che anche il miglior software OCR riporta un carattere errato ogni 10.000 è ragionevole pensare che, se il testo è stato pubblicato prima del 1950, il risultato sarà di qualità inferiore; in tale circostanza è plausibile che la precisione si discosti dal 99% e, in molti casi, raggiunga appena il 98%.

La misurazione della precisione in termini di carattere non è realmente utile: sarebbe molto più vantaggioso considerare il numero di parole errate piuttosto che il numero di caratteri. Se si prende ad esempio un testo di 500 parole con 2.500 caratteri, con un software OCR che arriva ad una precisione del 98%, il risultato finale sarà di 50 caratteri errati. Ragionando in termini di parole questo significa 25 parole scorrette (2 caratteri in media per parola), facendo quindi scendere la precisione al 95%; se le parole imprecise fossero 50 (un carattere per parola) allora il grado di esattezza scenderebbe al 90% [11].

Cosa succede nel caso di un testo stampato in edizione moderna, con carta e stampa di ottima qualità e in epoca successiva al 1950 ma in italiano antico? In tale circostanza un carattere errato in una parola rende meno intuibile il riconoscimento della parola stessa. La verifica è stata effettuata sull'opera di Marsilio Ficino, El libro dell'amore, nell'edizione moderna, pubblicata nel 1987 [12]. Il testo è stato scelto in quanto fa parte della sezione Ipertesto del Progetto di ricerca di Rilevante Interesse Nazionale (PRIN-ILIESI): Il problema anima-corpo alla luce dell'etica tra Rinascimento e Settecento: Testi - Lessico - Fonti - Censure [13].

La stampa moderna dell'opera è stata scansionata e convertita in un file Word modificabile, ottenendo un testo alquanto corretto di 219 pagine con 45.995 parole, 270.579 caratteri spazi inclusi. Il software è stato in grado di riconoscere anche il punto mediano [14] o centrato nelle locuzioni come "a·Ddio" anche se, a volte, lo ha sostituito con un trattino.

La revisione ha permesso di rilevare 251 caratteri sbagliati in 161 parole, 88 parole con un carattere errato, 61 parole con 2 caratteri, 9 parole con 3 caratteri; 2 parole con 4 ed una sola con 6 caratteri errati. Tra gli errori rilevati, vale la pena menzionare alcuni degli errori ricorrenti: nell'ultima riga di p. 7, il software ha ripetuto 'Phedro' della riga precedente mentre in questo caso è 'Phedria'; a p. 28 'delPanima' al posto di 'dell'anima' e a p. 38 e p. 44 'delPanimo' al posto di 'dell'animo', mentre a p. 75 ha scambiato 'F'al posto di 'l''per ben 5 volte; il carattere greco 'Γ' al posto di 'l'' θ stato trovato alle pp. 7; 51; 55; 65; 71; 75; 77; 101; 111; 150; 154; 159 (due volte nella stessa riga); 161; 169; 200; 213; 216. Il grado di precisione raggiunto, prima della revisione, è in ogni caso molto alto in quanto ha superato il 99%, dove la percentuale di errore è dello 0,35%.

Il testo ottenuto è stato quindi confrontato con lo stesso testo [15], messo a disposizione dall'autorevole portale della Biblioteca Virtuale On-Line [16]. Si tratta di una digitalizzazione realizzata nella prima metà del 2000, quando i software OCR erano meno sofisticati.
Non siamo naturalmente in possesso dei dati relativi al testo prima della sua pubblicazione, ma la natura e il numero degli errori, rilevabili anche dopo la revisione, è molto diversa. In totale, nel testo pubblicato, sono stati riscontrati 101 caratteri errati in 85 parole: 72 parole con un carattere errato, 6 parole con 2 caratteri errati, 3 parole con 3 caratteri errati e 2 parole con quattro caratteri errati.

Anche in questo caso il grado di precisione supera il 99% ma solo dopo la revisione. Si va dagli errori 'veniali' che non inficiano la comprensione della parola, come un carattere senza accento al posto dello stesso carattere accentato o una lettera minuscola al posto della maiuscola (pero, qualita, virtu, perche, o llui al posto di Llui, ecc.), a parole in cui è errato un solo carattere che tuttavia penalizza profondamente la qualità della trascrizione: 'quantity' al posto di 'quantità' (p. 82 prima riga), o 'the human' al posto di 'che human' (p. 40 ultima riga), o 'home' al posto di 'nome' (p. 164, ottava riga), o 'considerations' al posto di 'consideratione' (p. 170).

Questo secondo tipo di errori trasformano profondamente il testo e l'inserimento di una parola in inglese moderno in un testo in italiano antico inficia terribilmente ogni possibile ricerca testuale. Tra gli esempi vale la pena ricordare anche la sostituzione di parole come 'padre' al posto di 'patire' (p. 62), o 'loco' al posto di 'loro' (p. 101, 122). Più difficile da rilevare ad una lettura superficiale sono le omissioni di parole intere come 'Platone' a p. 5 o di righe intere (p. 12, 16 e 108).

La verifica ha reso evidente che, nonostante gli enormi progressi degli ultimi anni, la correzione automatica non può essere applicata a testi impegnativi come quelli scritti in una lingua antica e che il testo ottenuto con la scansione di un libro deve essere sempre rivisto per garantire la massima fedeltà all'originale e per 'marcarne' le varie parti, in modo da migliorarne sia la ricerca che la presentazione [17]. In caso contrario la trascrizione è di scarsa utilità soprattutto se l'obiettivo è quello di fornire un valido strumento di ricerca.

3. Web e grado di affidabilità

La rete ha profondamente modificato il modello di recupero delle informazioni, per cui misurare il grado di precisione nella digitalizzazione di testi ad accesso aperto è di grande utilità, soprattutto nel caso in cui i testi siano messi a disposizione da parte di organizzazioni che godono di un forte credito. Gli studenti sono consapevoli che il grado di affidabilità delle biblioteche (e dei loro siti web) è maggiore di quello della rete in generale, come ha messo in evidenza Carlo Bianchini nel suo recente articolo [18] riportando i risultati contenuti nel rapporto OCLC 2010 sulla percezione delle biblioteche: "College students feel that search engines trump libraries for speed, convenience, reliability and ease of use. Libraries trump search engines for trustworthiness and accuracy. Substantially more students in 2010 (43%) indicated that information from library sources is more trustworthy than from search engines (31% in 2005)" [19].

Se da un lato questa osservazione ci conforta sul fatto che la citazione di prima mano è considerata più attendibile da un numero maggiore di studenti nel 2010 rispetto al 2005, è però inevitabile la considerazione che il dato osservato sia causato dalla esperienza, fatta sulla propria pelle, che la citazione dalla rete si è spesso rivelata errata o approssimativa.


La questione riguarda tutti: a chi non è capitato di fare una citazione direttamente da siti autorevoli, senza verificare la versione a stampa, per scoprire poi che la svista di un semplice carattere ha prodotto una citazione errata? La domanda da porsi è se effettivamente si persegue la stessa 'accuracy' nei testi open access di quella che si richiede ad un testo a stampa o digitale il cui accesso sia riservato. Il dubbio sulla rigorosità dei testi in rete è legittimo, in quanto chi punta alla quantità piuttosto che alla qualità spesso non persegue la precisione. Tale atteggiamento, se può essere tollerato nelle digitalizzazioni di testi operate su vasta scala da grandi imprese commerciali, non può essere accettato nelle digitalizzazioni curate da istituzioni scientifiche e di ricerca.

4. Buone pratiche

Negli oltre cinquant'anni di attività di ricerca nel campo del trattamento dei testi l'ILIESI ha preso atto della necessità di sottoporre i testi digitalizzati - sia da tastiera sia tramite OCR - ad una revisione attenta e scrupolosa da parte di personale appositamente addestrato, per evitare inesattezze, imprecisioni e qualche volta addirittura equivoci veri e propri. Ma dal momento che si tratta di un'operazione onerosa e impegnativa in termini temporali ed economici, la possibile soluzione, senz'altro più a buon mercato, è rappresentata dalla possibilità di fornire insieme alla trascrizione, il formato immagine dell'opera, in questo modo qualsiasi dubbio viene immediatamente sciolto dalla possibilità di fare controlli immediati.

Il compito è reso ancora più facile se la trascrizione riproduce esattamente lo specchio di pagina della stampa originale perché in tal modo le differenze sono immediatamente evidenti, gli errori si individuano più facilmente e i dubbi si possono sciogliere velocemente, usando in pratica la stessa tecnica che si adotta per rilevare le differenze in due varianti della stessa edizione.

Rispetto al problema delle revisioni - piuttosto impegnative - si può considerare il particolare metodo messo a punto dal progetto Liber corrige [20], della Onlus Liber Liber. Il progetto prevede la possibilità di correzione da parte di utenti volontari che, adottando un'opera, hanno la possibilità di correggerla. L'obiettivo del progetto è quello di offrire testi filologicamente affidabili curando la revisione degli e-book già a disposizione e affinando le tecniche di revisione automatica. Le istituzioni scientifiche e di ricerca, che si occupano di testi o che semplicemente mettono a disposizione della rete i loro testi, potrebbero utilmente adattare alle loro caratteristiche ed esigenze questo metodo: dando ai propri utenti la possibilità di segnalare, anche in forma anonima, errori o sviste che solo dopo la validazione da parte dei ricercatori sarebbero rese esecutive.

A queste prime considerazioni sulle 'buone pratiche' andrebbe aggiunto l'interessante protocollo messo a punto dal citato portale BIVIO per la digitalizzazione dei testi della sua raccolta. I metadati dei testi, contenuti nella sezione 'edizioni' riportano le informazioni sull'edizione cartacea usata (informazioni bibliografiche ed eventuali note), sull'edizione digitale (acquisizione; codifica; elaborazioni immagini; data di pubblicazione) e sulla revisione (versione, oggetto della revisione, responsabile della revisione).

Tra le buone pratiche, oltre a quanto già evidenziato, si ritiene necessario indicare tra i metadati dei testi in rete, anche la metodologia e il software usato per l'acquisizione del testo insieme con l'avvertenza che il testo non è stato revisionato laddove manchi quest'ultimo passaggio. La precisione della trascrizione/digitalizzazione del testo, unita alla trasparenza sulla metodologia usata e nell'attribuzione di responsabilità, sono l'unico terreno sul quale le istituzioni scientifiche sono chiamate a competere con i grandi progetti disponibili in rete quali il Progetto Gutenberg, Million Book Project, Google Books e Open Content Alliance, che puntano essenzialmene alla scansione di libri su vasta scala.

Annarita Liburdi, Istituto per il Lessico Intellettuale Europeo e Storia delle Idee - CNR, e-mail: annarita.liburdi@cnr.it


Note

[1] Riccardo Ridi, La biblioteca digitale, "Bollettino AIB", (2004), 3, p. 273-343.

[2] L'Istituto è stato fondato da Tullio Gregory nel 1964 nell'ambito di un accordo tra il CNR e l'Università di Roma "La Sapienza", e da lui è stato diretto fino al 2007.

[3] L'ILIESI possiede una delle più vaste e concentrate raccolte in microfilm e microfiche di dizionari, di lessici di autori e di settori specialistici appartenenti ai vari ambiti linguistici europei oltre ad una serie di opere di autori oggetto di ricerca dell'Istituto.

[4] Il materiale lessicografico selezionato veniva inviato alla Divisione linguistica del Centro Nazionale Universitario di Calcolo Elettronico di Pisa (CNUCE) per la registrazione su schede perforate e veniva restituito sotto forma di tabulati.

[5] Cfr. Giovanni Adamo, Analisi informatica di testi: problemi e prospettive, in Calcolatori e scienze umane, Milano, Etas libri, 1992, p. 350-365.

[6] Cfr. Giovanni Adamo e Marco Veneziani, A data-base for a philosophical dictionary of the XVII and XVIII century, in The International Conference on Data Bases in the Humanities and Social Sciences, edited by F. Allen, Osprey, Florida, Paradigm Press, 1983, p. 150-154.

[7]<http://151.100.26.41:8777/iliesi/home.htm>

[8] <http://www.iliesi.cnr.it/attivita.php?tp=a_d>

[9] Responsabile scientifico del progetto è Maria Eugenia Cadeddu.

[10] Sub voce <http://it.wikipedia.org/wiki/Riconoscimento_ottico_dei_caratteri>.

[11] Simon Tanner, Deciding whether Optical Character Recognition is feasible, King's Digital Consultancy Services, 2004, <http://www.rfai.li.univ-tours.fr/fr/ressources/_dh/DOC/DocOCR/OCRFeasibility_final.pdf>

[12] Marsilio Ficino, El libro dell'amore, a cura di S. Niccoli, Firenze, Leo O. Olschki, 1987.

[13] Il responsabile scientifico dell'Unità di ricerca è Eugenio Canone dell'ILIESI, mentre il Coordinatore Scientifico Nazionale del PRIN è Franco Biasutti dell'Università degli Studi di Padova. <http://prin.iliesi.cnr.it/perl/index_prinILIESI.pl?pagina=Progetto>.

[14] Sub voce <http://it.wikipedia.org/wiki/Punto_mediano>.

[15] Marsilio Ficino, El libro dell'amore, <http://bivio.filosofia.sns.it/bvWorkTOC.php?authorSign=FicinoMarsilio&titleSign=ElLibroDellAmore>

[16] BIVIO è un progetto nato dalla collaborazione tra l'Istituto di Studi sul Rinascimento e Signum - Centro di ricerche informatiche per le discipline umanistiche della Scuola Normale di Pisa, con la collaborazione del Department of History della Harvard University. Scopo del Progetto è quello di orientare ricerche filosofiche, storiche, storico-artistiche, filologiche alla costituzione di una biblioteca virtuale on line.

[17] Riccardo Ridi, La biblioteca digitale, cit.

[18] Carlo Bianchini, Il falso in Internet: autorevolezza del Web, information literacy e futuro della professione: prima parte, "AIB studi", 54 (2014) 1, p. 61-74.

[19] OCLC, Perceptions of Libraies, 2010: Context and Community. A Report to the OCLC membership, p. 54 <http://www.oclc.org/content/dam/oclc/reports/2010perceptions/2010perceptions_all_singlepage.pdf>.

[20] <http://www.liberliber.it/online/aiuta/progetti/libercorrige/>.




«Bibliotime», anno XIX, numero 1 (marzo 2016)

Precedente Home Successiva


URL: http://static.aib.it/aib/sezioni/emr/bibtime/num-xix-1/liburdi.htm