«Bibliotime», anno XVIII, numero 2 (luglio 2015)

Precedente Home Successiva



Elena Cardillo, Assunta Caruso, Antonietta Folino, Erika Pasceri

Gestione e organizzazione della conoscenza specialistica: esperienze a confronto



Abstract

The exigency of creating Knowledge Organization Systems (KOS) is noticed in almost all knowledge domains, where it is necessary to systematize information and documents by the representation and modeling of their terms, concepts and semantic relationships. Such systems are conceived to accomplish information retrieval, indexing, knowledge representation and sharing and terminological control functions so that they could be used by both domain experts and common users. The aim of this article is to show this cross-sectoral perspective by presenting research approaches for the creation and integration of knowledge organization systems in different domains and how the methods and techniques presented could be generalized and reused in other domains.

1. Introduzione

L'organizzazione della conoscenza, così come le scienze documentali e la terminologia sono, per loro stessa natura, delle discipline trasversali, essendo il loro obiettivo primario quello di sistematizzare, strutturare e favorire l'accesso alle informazioni, ai documenti e ai concetti propri di domini specialistici. Obiettivo del presente articolo è di presentare, analizzando due differenti domini di conoscenza (sanità e turismo), prospettive e approcci metodologici differenti, al fine di dimostrare quanto i sistemi di organizzazione della conoscenza (KOS) e le tecniche utilizzate per la loro costruzione siano trasversali rispetto all'ambito applicativo, e di fondamentale importanza sia per l'organizzazione e il recupero delle informazioni sia per la condivisione interoperabile della conoscenza specialistica [1].

L'articolo, pertanto, è suddiviso in due parti: la prima descrive i principali KOS utilizzati nell'ambito medico-sanitario, focalizzandosi soprattutto sull'utilizzo di sistemi di classificazione e terminologie mediche per la codifica dei dati sanitari nel contesto nazionale delle cure primarie e, in particolare, del Fascicolo Sanitario Elettronico; la seconda, partendo dallo stato dell'arte relativo alla creazione di KOS per la strutturazione delle informazioni turistiche, descrive un approccio metodologico per la definizione di un thesaurus bilingue (italiano e inglese) e di un glossario per il dominio del turismo, che possano servire per il controllo terminologico e il recupero efficiente, integrato e immediato delle informazioni nell'ambito di applicativi di settore.

2. L'importanza dei KOS nell'ambito medico-sanitario: il caso FSE

Nel dominio sanitario la gestione della conoscenza è strettamente legata a termini quali "vocabolari", "terminologie" e "sistemi di classificazione", utilizzati per definire gli strumenti che costituiscono la chiave di accesso ai dati codificati che gli utenti (medici, analisti di dati, operatori sanitari), combinano, manipolano e condividono durante il processo di cura (e di gestione) del paziente. I suddetti termini, tuttavia, sono spesso usati erroneamente in maniera interscambiabile, pur riferendosi a dei concetti ben distinti. Con il termine "vocabolario" ci si riferisce ad una collezione di parole ciascuna delle quali corredata dal relativo significato; con "terminologia" si definisce un insieme di termini rappresentanti il sistema di concetti di un particolare dominio, ad esempio quello biomedico. Una classificazione, infine, descrive le informazioni cliniche e le organizza in entità simili o correlate.

Il concetto di "terminologia medica" è definito in [2] come "pre-established hierarchy of terms used to constrain selections made by users in annotating large document corpora". Mentre secondo [3], esse riguardano "the meaning, expression, and use of concepts in statements in the medical record or other clinical information systems". I sistemi di classificazione medica, invece, forniscono un essenziale strumento per l'annotazione (etichettatura/codifica) non ambigua di concetti clinici nel corso dei processi di cura e nell'erogazione dei servizi sanitari (come la comunicazione di malattie e delle loro cause, l'analisi statistica per studi epidemiologici, ecc.) e per migliorare l'accesso a e l'elaborazione dei contenuti nei sistemi informativi medico-sanitari. Un'overview sull'utilizzo e il significato dei diversi sistemi di organizzazione della conoscenza in questo settore è presentata in [4].

Poter disporre di sistemi di strutturazione della conoscenza risulta quanto mai necessario nell'ambito medico-sanitario, al fine di rappresentare le informazioni complesse favorendone la corretta interpretazione e la condivisione. I sistemi di classificazione, in particolare, aiutano a superare i problemi connessi alla complessità lessicale del dominio caratterizzato da un alto livello di specificità. La strutturazione e le informazioni contenute nei sistemi di classificazione variano al variare della granularità, dello scopo e del contesto socio-culturale per il quale sono stati costruiti. Come mostrato in [5], ad esempio, adattare uno standard ad uno scopo diverso da quello per il quale originariamente era stato costruito significa da un lato non poterlo utilizzare nella sua completezza e, dall'altro, inevitabilmente, snaturarne la struttura iniziale.

A seguito dell'emanazione delle direttive europee in materia di cure transfrontaliere, interoperabilità semantica dei dati sanitari e sistemi di Cartelle Cliniche Elettroniche integrate [6], l'Italia, come altri Paesi europei, ha attuato una programmazione istituzionale nell'ambito della sanità elettronica, adattando la normativa europea al contesto nazionale, mirata alla costituzione di un'infrastruttura federata ed interoperabile per la gestione e condivisione dei documenti e dati sanitari del paziente (il Fascicolo Sanitario Elettronico - FSE), per favorire la decentralizzazione della cura del paziente stesso, l'accesso facilitato ai suoi dati sanitari ed il perfezionamento dei percorsi diagnostico-terapeutici-assistenziali. La strutturazione dei dati sanitari all'interno dell'FSE permette, difatti, di verificare una serie di variabili ed indicatori utili al contesto regionale di riferimento al fine di evidenziare potenzialità/criticità del sistema, contribuendo, quindi, a trasferire i risultati della ricerca nella pratica clinica.

Per permettere una efficiente gestione dei dati sanitari nel contesto dell'FSE, è stata attuata anche una regolamentazione per uniformare e standardizzare l'utilizzo dei sistemi di codifica dei dati socio-sanitari dei cittadini e per la loro trasmissione in ottica di interoperabilità, in modo da permetterne lo scambio tra i diversi sistemi informativi, attraverso un linguaggio codificato condiviso e utilizzando "canali" comuni. L'art. 12 del Decreto Legge 179/2012 ha ribadito l'obbligo dell'istituzione ed attivazione dell'FSE da parte delle Regioni e delle Province autonome, evidenziando contestualmente la necessità della sua alimentazione da parte degli attori del Servizio Sanitario Nazionale.

Il problema legato alla gestione e al corretto utilizzo delle codifiche in ambito sanitario è diventato, negli ultimi anni, un problema di non banale risoluzione. Da una parte l'utilizzo errato o il non utilizzo della codifica appropriata è legato alla mancanza di adeguata formazione per gli operatori coinvolti nel processo. I Medici di Medicina Generale (MMG), ad esempio, non sempre utilizzano o utilizzano in modo sommario la codifica più appropriata per la refertazione delle diagnosi.

Uno studio svolto nell'ambito del progetto PON04a2_C20 "Smart Health - Cluster ODSH- Smart FSE - Staywell", finanziato dal MIUR, su un campione di diagnosi estratto dai database di un campione di 150 MMG della Calabria e della Campania [7], costituito da più di 225,000 diagnosi, ha rivelato che i codici utilizzati dai medici per l'identificazione delle diagnosi sono stati solo 3,600 a fronte di più di 17,000 disponibili. I MMG tendono ad utilizzare un codice generico per una data patologia, piuttosto che selezionare il codice più adeguato rispettando la granularità del sistema di classificazione ed essere più precisi in fase di output (Tabelle 1 e 2).

 

Diagnosi inserita

dai MMG

Codice ICD9-CM

Utilizzato

Codice disponibile

NON utilizzato

Screening per dislipidemia

V77.99 - Screening per altri e non specificati disturbi endocrini, nutritivi, metabolici e immunitari

V77.91 - Screening per l'alterazione dei valori dei lipidi

Vertigini

388.8 - Altri disturbi dell'orecchio

438.85 - Vertigini

Tabella 1. Errori di codifica: uso di codici troppo generici [5]

Per garantire l'interoperabilità semantica tra le diverse terminologie e sistemi di classificazione in uso nei diversi sistemi informativi medico-sanitari è necessario stabilire dei mapping (ovvero relazioni di corrispondenza) non ambigui e delle transcodifiche, assicurando in tal modo che il significato esatto delle informazioni scambiate sia comprensibile, anche se si utilizzano risorse eterogenee.

Il mapping aiuta a preservare il valore dei dati, anche quando questi vengono migrati su nuovi formati e database e, inoltre, consente di evitare l'inserimento multiplo dei dati di interesse col rischio di aumentare errori e costi di gestione. Le corrispondenze tra le diverse terminologie sono spesso espresse sotto forma di tavole di corrispondenza, (vedi Tabella 2), inoltre devono essere raffinate per casi di studio particolari e utenti in diversi contesti [8].

  

Termine ICD10

Termine in ICPC-2

R51 (Cefalea)

N01 (Cefalea)

G44.3 (Cefalea cronica post-traumatica)

G44.8 (Altre sindromi cefalalgiche specificate)

Tabella 2. Esempio di Mapping tra ICD10 e ICPC-2

Negli ultimi anni la ricerca si è concentrata sullo sviluppo di metodologie per la creazione di mapping automatici tra terminologie mediche, cercando anche di affrontare un task ben più difficile come quello della formalizzazione di terminologie mediche esistenti e dei loro mapping clinici. Da una parte, molti task d'integrazione hanno visto l'utilizzo di algoritmi ed euristiche per la scoperta di mapping tra sistemi di classificazione basati sull'uso estensivo del Metathesaurus UMLS [9] come base di conoscenza per la corrispondenza semantica di concetti appartenenti ai diversi sistemi di classificazione e vocabolari in essa contenuti (es. in [10] e [11]). Molti sono stati anche gli approcci di mappatura basati su formalismi. Si vedano ad esempio gli approcci descritti in [12] e in [13].

Importanti iniziative d'integrazione di terminologie mediche e sistemi di classificazione, sono state promosse da organizzazioni internazionali, quali, ad esempio, l'International Health Terminology Standards Development Organisation (IHTSDO)[14], l'Organizzazione Mondiale della Sanità (OMS) [15] e la Wonca International Classification Committee (WICC) [16] per la creazione dei mapping tra i sistemi di codifica da loro sviluppati, rispettivamente, la Systematized Nomenclature of Medicine - Clinical Terms (SNOMED CT), l'International Classification of diseases 9th revision - Clinical Modification (ICD9-CM) e l'International Classification of Diseases 10th revision (ICD10) e l'International Classification of Primary Care (ICPC-2) ([17], [18] e [19]).

La realizzazione di questi mapping clinici, basati su regole, permette ai realizzatori e venditori di software di creare il supporto necessario per mapping semi-automatici laddove non è possibile un passaggio diretto tra i diversi sistemi di codifica a causa della complessità delle linee guida sul processo di codifica delle condizioni di salute. L'utilità di sistemi di codifica medica e di terminologie di riferimento per il dominio correttamente integrati è ancora più evidente in un framework quale quello del FSE laddove è necessaria una gestione centralizzata dei dati sanitari e delle informazioni mediche che non lasci spazio a problemi quali ambiguità semantica o errori di codifica che potrebbero, quindi, indurre ad interpretazioni errate dei dati stessi da parte degli stakeholder e del paziente stesso.

Infine l'appropriatezza semantica delle informazioni sanitarie scambiate all'interno del Fascicolo è un tassello fondamentale per la qualità e l'efficienza dei percorsi di cura socio-assistenziali. Tale importanza è emersa anche da parte degli stessi operatori sanitari che, nell'ambito della sperimentazione avviata sul FSE in alcune Regioni (Lombardia, Veneto ed Emilia Romagna), hanno riconosciuto l'utilità dei sistemi di organizzazione e gestione delle informazioni/conoscenze di dominio sia per la qualità dei dati trasmessi, ma anche per la facilitazione del processo di codifica dei dati stessi.

3. Gestione e organizzazione della conoscenza nel dominio del Turismo: il caso INMOTO

Il dominio del turismo è interessato da diversi sistemi di organizzazione della conoscenza, sviluppati prevalentemente a supporto di applicazioni di e-tourism basate sulle tecnologie del Web Semantico. Tali risorse, infatti, sono rappresentante in gran parte da ontologie di dominio create per la modellazione di specifici aspetti del settore turistico, come ad esempio l'Accomodation Ontologies (ACCO) [20], che descrive concetti relativi alle strutture ricettive, o finalizzate a specifici obiettivi, come l'ontologia sviluppata nell'ambito del progetto europeo Harmonise [21], alla base di un'infrastruttura per potenziare la cooperazione tra le Piccole Medie Imprese (PMI) turistiche europee, la Hi-Touch Ontology, utilizzata dagli assistenti di vendita delle agenzie di viaggio per fornire ai turisti un prospetto con le migliori offerte, la e-Tourism Ontology che fornisce un vocabolario condiviso relativo alla ricettività, alle attività e alle infrastrutture turistiche, la TAGA Ontology di supporto alla simulazione del mercato globale dei viaggi e la GETESS Ontology per l'information retrieval nel dominio del turismo. Un'overview sulle caratteristiche e l'uso di queste ontologie in sistemi di question-answering è presentata in [22].

Particolarmente rilevante è, inoltre, il Thésaurus du tourisme et des loisirs [23][24], definito dall'Organizzazione Mondiale del Turismo e dal Secrétariat d'État au Tourisme de la France [25].

Nonostante la presenza di diverse ontologie e risorse linguistiche relative al dominio del turismo, si è reso necessario sviluppare uno strumento di controllo terminologico per il contesto nazionale che rispondesse agli specifici obiettivi delle attività di ricerca dello stream INMOTO, parte del progetto integrato Cultura e Turismo: DiCet-INMOTO-ORCHESTRA [26], il cui obiettivo principale è quello di realizzare una piattaforma real-time, e applicazioni ad essa connesse, di supporto alla mobilità turistica. L'organizzazione della conoscenza e il controllo terminologico all'interno della piattaforma sono garantiti dalla creazione di un thesaurus e di un glossario ad esso integrato, di supporto anche all'indicizzazione e al recupero delle informazioni, oltre che all'interpretazione di query formulate dagli utenti in linguaggio naturale [27].

La definizione di tale risorsa si è articolata in tre macro fasi: i)la costruzione di un corpus documentale bilingue (italiano-inglese) comparabile [28], sincronico e costituito da testi scritti; ii) l'estrazione terminologica semiautomatica a partire dal suddetto corpus; iii) la definizione della struttura e delle relazioni semantiche per l'organizzazione dei concetti e dei termini rappresentativi del dominio di riferimento.

Per quanto riguarda la prima fase di costruzione del corpus documentale, sono stati identificati i criteri qualitativi e quantitativi necessari per garantire il rispetto del principio di rappresentatività, secondo il quale la collezione di documenti deve costituire un campione statisticamente significativo rispetto alla popolazione di riferimento [29].

Sulla base dei requisiti di carattere qualitativo identificati in [30], il corpus costruito presenta le seguenti caratteristiche: (i) le tipologie testuali principali ritenute significative ai fini della selezione di terminologia rappresentativa del dominio, sono le riviste di settore [31], a loro volta ulteriormente distinguibili in base al livello di specializzazione e al pubblico di riferimento (divulgative, accademiche, ecc.), le leggi nazionali e regionali e le norme ISO e UNI; (ii) le riviste di settore sono state pubblicate nell'arco temporale 2008-2013 al fine di garantire l'estrazione di terminologia aggiornata; (iii) i testi sono stati inseriti nel corpus nella loro interezza e nella loro versione originale (non in traduzione); (iii) la copertura semantica dei testi è tale da garantire la rappresentatività delle diverse tematiche riconducibili al turismo (economia del turismo, ricettività, viaggi, ecc.) [32]; (iv) la copertura spaziale è limitata al territorio nazionale. Tali criteri sono stati rispettati sia per il sotto corpus in lingua italiana, che per quello in lingua inglese, al fine di ottenere dei risultati quanto più possibile sovrapponibili, in termini di unità linguistiche e di concetti rappresentati all'interno del thesaurus.

Per definire la rappresentatività da un punto di vista quantitativo è stato sviluppato un metodo statistico orientato alla determinazione a priori delle dimensioni minime di un corpus, basato sul calcolo della misura qualitativa type token ratio (TTR), misurata come il rapporto tra il numero di lemmi e il numero di token individuati nel testo. La metodologia è descritta dettagliatamente in [33][34].

Il corpus così costituito, a seguito di un processo di scansione e conversione in formato testo dei documenti in esso contenuti, è stato sottoposto ad una fase di estrazione terminologica semiautomatica, eseguita con l'ausilio del tool Text-To-Knowledge (T2K2)[35][36] opportunamente personalizzato in relazione alle specificità del lessico del turismo.

Tale strumento si basa su algoritmi statistici ed esegue un'analisi linguistica dei testi, il cui risultato è costituito da un vocabolario terminologico [37] corredato da informazioni morfo-sintattiche e semantiche sui termini estratti, oltre che da misure sulla frequenza e sulla rilevanza rispetto al dominio di ciascun candidato a termine estratto. Il glossario terminologico ottenuto, così come le relazioni semantiche identificate, sono stati interessati da un'attività di analisi terminologica manuale orientata alla selezione e alla successiva normalizzazione dei termini che rappresentano i concetti ritenuti significativi ai fini della costruzione del thesaurus. La fase di estrazione ha previsto naturalmente l'adozione di criteri differenti in base alle specificità linguistiche delle due lingue di compilazione del thesaurus [38].

Il vocabolario controllato bilingue è stato costruito in accordo con la recente normativa in materia, rappresentata dalla ISO 25964, pubblicata in due parti di cui la prima nel 2011 [39] e la seconda nel 2013 [40]. La seconda parte è particolarmente importante per la definizione di relazioni interlinguistiche e di possibili modelli secondo i quali strutturare i thesauri multilingue. Nel caso specifico, allo stato attuale, il thesaurus presenta una struttura simmetrica tra le due versioni linguistiche, che prevedono un termine in lingua italiana e uno in lingua inglese per la rappresentazione di ciascun concetto e che condividono le medesime relazioni semantiche [41]. La progressiva costruzione delle due versioni, tuttavia, sta rendendo evidente l'opportunità di riorganizzare il vocabolario secondo un modello federato e asimmetrico [42].

Dal punto di vista dell'organizzazione concettuale, il thesaurus presenta una struttura a faccette, dal momento che la classificazione in gruppi di concetti omogenei è più immediata in contesti specialistici e permette un'organizzazione più sistematica e un accesso multidimensionale alla conoscenza di dominio, oltre che una maggiore flessibilità nell'inserimento di concetti aggiuntivi in un'ottica di aggiornamento del thesaurus stesso. Le faccette sono state definite adattando allo specifico dominio di riferimento il set di categorie standard del Classification Research Group [43]. In alcuni casi i concetti sono ulteriormente organizzati per mezzo di etichette di nodo, che forniscono informazioni circa gli attributi in base ai quali un gruppo di concetti si distingue da altri gruppi collocati sul medesimo livello gerarchico e riconducibili allo stesso concetto sovraordinato [44].

Il reticolo semantico è costruito per mezzo delle relazioni thesaurali classiche, ovvero di equivalenza, gerarchiche (ulteriormente specificate in base alla tipologia - generica, partitiva, esemplificativa) e associative [45], la cui definizione richiede, in alcuni casi, supporto di esperti di dominio, essendo alcune sfumature di significato difficilmente gestibili senza il possesso di conoscenze e competenze specialistiche. Per quanto riguarda le definizioni associate ai concetti del thesaurus, per far sì che lo stesso assolva anche alla funzione di glossario, esse provengono nella maggior parte dei casi da norme e leggi inerenti il turismo, acquistando di conseguenza un carattere specialistico.

4. Accessibilità e pubblicazione dei sistemi di organizzazione della conoscenza

La distribuzione dei sistemi di gestione della conoscenza e in particolare dei thesauri, come risorse disponibili sul web o come sistemi integrati in altre applicazioni e di conseguenza i formati e i protocolli da utilizzare dipendono dall'obiettivo che la costruzione dei KOS stessi si pone. Se, infatti, un sistema come il thesaurus ha lo scopo di essere utilizzato per il recupero di informazioni , deve poter essere propriamente e completamente integrato in sistemi in cui abbiano luogo processi di indicizzazione, navigazione e di ricerca. Alcuni sistemi di indicizzazione o ricerca (es. Content Management Systems) permettono la creazione di thesauri e ne consentono il mantenimento nel tempo. Tali sistemi devono consentire meccanismi di esportazione del thesaurus in un formato standard, poiché potrebbero presentarsi delle limitazioni nel momento in cui emerge la necessità di cambiare il sistema di gestione o di rendere fruibile il thesaurus in altre applicazioni.

Esistono vari software per la costruzione di terminologie, sistemi di classificazione e thesauri che permettono sia l'import che l'export in formati standard (ad es. XML e SKOS/RDF, CSV, HTML).

Tra i formati di scambio più comuni, quello più utilizzato negli ultimi anni è SKOS (Simple Knowledge Organization Systems), standard W3C per la rappresentazione di risorse terminologiche e thesaurali per il Web Semantico, codificato in XML e RDF (Resource Description Framework). L' esportazione di vocabolari controllati in formato SKOS permette di pubblicare le risorse stesse come Linked Data (LD), favorendo cosi la condivisione e il riuso dei dati nonché l'integrazione con altre risorse del Linked Data cloud.

Sia nel caso in cui i KOS vengano pubblicati in rete, che nel caso in cui sia prevista la loro integrazione in applicazioni di information retrieval è necessario utilizzare un protocollo standard per lo scambio dei dati o di un sottoinsieme di essi. Oltre a protocolli general-purpose, esistono protocolli sviluppati specificatamente per l'interrogazione diretta di tali risorse ai fini dell'indicizzazione e/o recupero delle informazioni, che possono essere impiegati per presentare e applicare le risorse, i concetti che ne fanno parte, i termini e le relazioni, per descrivere il significato dei termini e facilitare l'interoperabilità semantica. Sebbene alcuni siano molto usati e più conosciuti, la selezione e l'uso di un protocollo piuttosto che un altro dipende dai bisogni dell'applicazione, dallo scopo e dall'ambiente software. Tra i protocolli specifici utilizzati, ad esempio, indicati dallo standard ISO 25964-1:2011 [39], vi sono le API SKOS (SWAD-E SKOS API) [46], ovvero delle web services API, che sono disegnate per fornire l'accesso a thesauri e altri sistemi di organizzazione della conoscenza via web. L'uso di queste API è adatto per thesauri in formato SKOS, ma possono essere adattate anche ad altri formati.

5. Conclusioni e prospettive

Nel presente articolo sono state descritte le caratteristiche dei principali sistemi di organizzazione e rappresentazione della conoscenza specialistica legata ai domini della sanità elettronica e del turismo, per i quali sono state presentate le principali attività di ricerca portate avanti dal Laboratorio di Documentazione (LabDoc) e dall'IIT-CNR sede di Rende. Tali attività mirano allo sviluppo di metodologie e modelli per la gestione, formalizzazione ed integrazione della conoscenza al fine di realizzare prodotti e servizi in domini applicativi differenti.

La descrizione delle attività di ricerca è stata volutamente focalizzata su ambiti sensibilmente diversi per mettere in evidenza la trasversalità e la varietà degli approcci metodologici utilizzati. Nell'ambito della sanità elettronica ci si è concentrati maggiormente sui sistemi di gestione della conoscenza per la codifica dei dati sanitari e sull'importanza di tali sistemi per la corretta condivisione delle informazioni, mentre nell'ambito del turismo si è data maggiore rilevanza alla descrizione del processo metodologico che ha portato alla costruzione di un vocabolario controllato. Il valore aggiunto di tali risorse risiede nella possibilità di riutilizzarle con obiettivi che vanno al di là delle finalità che ne hanno determinato la costruzione - legate alle specifiche esigenze dei progetti di ricerca - e che potrebbero consistere, ad esempio, nell'arricchimento della descrizione di determinati domini, attraverso l'integrazione e l'allineamento a sistemi di gestione della conoscenza già esistenti o nella possibilità di fornire servizi terminologici ad un pubblico più vasto ed eterogeneo attraverso l'utilizzo di nuove tecnologie.

Antonietta Folino, Dipartimento di Lingue e Scienze dell'Educazione - Università della Calabria, Rende (CS), e-mail: antonietta.folino@unical.it
Assunta Caruso, Dipartimento di Lingue e Scienze dell'Educazione - Università della Calabria, Rende (CS), e-mail: susie.caruso@unical.it
Erika Pasceri, CNR - Istituto di Informatica e Telematica, Rende (CS), e-mail: erika.pasceri@unibo.it
Elena Cardillo, CNR - Istituto di Informatica e Telematica, Rende (CS), e-mail: elena.cardillo@iit.cnr.it


Note

[1] Le attività descritte sono svolte presso il Laboratorio di Documentazione del Dipartimento di Lingue e Scienze dell'Educazione dell'Università della Calabria e dall'Istituto di Informatica e Telematica del Consiglio Nazionale delle Ricerche (IIT-CNR), sede di Cosenza, che ha sede presso lo stesso Labdoc, <www.labdoc.it> e <http://www.iit.cnr.it/node/31599>.

[2] Werner Ceusters - Barry Smith - Jim Flanagan, Ontology and Mapping Terminology: Why Description Logics Are Not Enough, in Proceedings Towards an Electronic Patient Record, Boston, MA, Medical Records Institute, 2003, <http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.91.4053&rep=rep1&type=pdf>.

[3] Alan Rector, Clinical terminology: Why is it so hard?, "Methods of Information in Medicine", 38 (1999) 4, p. 239-252.

[4] Klaar Vanopstal - Joost Buysschaert - Godelieve Laureys - Robert Vander Stichele, Impact of language skills and system experience on medical information retrieval, "PhD Thesis", University of Ghent, University Press bvba, 2013.

[5] Elena Cardillo - Maria Teresa Chiaravalloti - Erika Pasceri, Assessing ICD-9-CM and ICPC-2 Use in Primary Care. An Italian Case Study, in Proceedings of the 5th International Conference on Digital Health 2015, edited by Patty Kotsova and Floriana Grasso, ACM New York - USA, May 18 - 20, 2015, Florence, Italy, p. 95-102.

[6] <http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=OJ:L:2011:088:0045:0065:EN:PDF>.

[7] Maria Teresa Chiaravalloti - Roberto Guarasci - Vincenzo Lagani - Erika Pasceri - Roberto Trunfio, A Coding Support System for the ICD-9-CM standard, in IEEE International Conference on Healthcare Informatics, Verona, 15 - 17 September 2014.

[8] Margaret M. Foley, Key issues shaping clinical terminology and classification, "Journal of AHIMA", 77 (2006) 7, July/August 2006.

[9] <http://www.nlm.nih.gov/pubs/factsheets/umls.html>.

[10] Kin Wah Fung - Olivier Bodenreider, Utilizing the umls for semantic mapping between terminologies, in "Proceedings of AMIA Annual Symposium 2005", AMIA2005, p. 266–270.

[11] Yefeng Wang - Jon Patrick, Graeme Miller - Julie O'Halloran, Linguistic mapping of terminologies to SNOMED CT, in "Proceedings of the Semantic Maining Conference on SNOMED CT-SMCS 2006", Copenhagen, Denmark, 2006.

[12] Elena Cardillo - Genaro Hernandez - Olivier Bodenreider, Integrating consumer-oriented vocabularies with selected professional ones from the UMLS using Semantic Web Technologies, Proceedings of the 3rd International Conference on Electronic Healthcare 2010, eHealth2010, Casablanca, Morocco, 2010.

[13] Nicolette F. de Keizer - Ameen Abu-Hanna, Understanding terminological system ii: Experience with conceptual and formal representation of structure, "Methods Inf. Med", 39(2000) 1, p. 22–29.

[14] <http://www.ihtsdo.org/>.

[15] <http://www.who.int/en/>.

[16] <http://www.globalfamilydoctor.com/groups/WorkingParties/wicc.aspx>.

[17] Sue Bowman, Coordinating SNOMED-CT and ICD-10: Getting the most out of electronic health record systems, "Journal of the American Health Information Management Association", 76(2005)7, p.60-61.

[18] IHTSDO, SNOMED CT® to ICD-9-CM Rule Based Mapping to Support Reimbursement, International Health Terminology Standards Development Organisation, Ottobre 2009.

[19] Graeme Miller, Integrating SNOMED CT and ICPC-2 in GP EHRs, Terminology and EHR Structure Working Group, Wonca International Classification Committee, Family Medicine Research Centre, The University of Sydney, 2010, <http://www.racgp.org.au/scriptcontent/nswwonca/04202010_Dr_Graeme_Miller.pdf>.

[20] Accommodation Ontology, <http://ontologies.sti-innsbruck.at/acco/ns.html>.

[21] Mirella Dell'Erba - Oliver Fodor - Francesco Ricci, Hannes Werthner. Harmonise, A Solution for Data Interoperability, in Towards the Knowledge Society, IFIP, The International Federation for Information Processing, Springer US, 105(2003), p. 433-445, doi: 10.1007/978-0-387-35617-4_28

[22] Shiyan Ou - Victor Pekar - Constantin Orasan - Christian Spurk - Matteo Negri, Development and Alignment of a Domain-Specific Ontology for Question Answering, Proceedings of the Sixth International Language Resources and Evaluation (LREC 2008), Marrakech, Morocco, 2008, p. 2221-2228.

[23] Secrétariat d'État au Tourisme de la France, Organisation Mondiale du Tourisme, Thésaurus du tourisme et des loisirs, versione italiana a cura di Cosimo Notarstefano, Galatina, Ed. Salentina, 2002.

[24] Il Thésaurus du Tourisme et des Loisirs rappresenta una risorsa significativa ai fini delle attività progettuali qui descritte. Tuttavia, la scelta di costruire un thesaurus ex novo piuttosto che adattare e modificare il Thésarus è dipesa da molteplici fattori: la data di aggiornamento dell'ultima versione in lingua italiana risale al 2006, quindi non rispecchia le più recenti evoluzioni concettuali; la versione italiana del thesaurus, sebbene non sia frutto di una mera traduzione, riflette l'impostazione concettuale e la terminologia della prima versione linguistica realizzata, ovvero quella francese; la strutturazione dei concetti in campi semantici non corrisponde alla scelta di costruire un thesaurus con un'organizzazione a faccette; la copertura semantica delle due risorse è solo parzialmente sovrapponibile. Il Thésaurus è stato comunque utilizzato sia come fonte di riferimento, che come strumento di validazione dei termini estratti e si sta ipotizzando di definire un sistema di mapping tra tale risorsa e il thesaurus definito nell'ambito del progetto INMOTO.

[25] La versione quadrilingue che comprende - oltre al francese, all'inglese e allo spagnolo - anche l'italiano, è stata curata dall'Università degli Studi di Lecce.

[26] Programma Operativo Nazionale (PON) Ricerca e Competitività 2007-2013, Smart Cities and Communities and Social Innovation, Asse e Obiettivo: Asse II- Azioni integrate per lo sviluppo sostenibile, Ambito: Smart Culture e Turismo, Progetto esecutivo integrato-Cluster Cultura e Turismo DiCeT-LivingLab Di Cultura e Tecnologia, INMOTO-INformation and MObility for TOurism, OR.C.HE.S.T.R.A.-Organization of Cultural Heritage for Smart Tourism and Real-time Accessibility. Nello specifico l'attività di cui al presente paragrafo rientra nel task A2.2.3 Strumenti linguistici per la rappresentazione semantica e indicizzazione delle informazioni, parte a sua volta dellOR 2.2 Ontologia e analisi semantica, mappatura e indicizzazione.

[27] Il progetto ha previsto anche la definizione di un'ontologia di dominio. Ontologia e thesaurus sono stati pensati e sviluppati fin dalle prime fasi del progetto come sistemi indipendenti in ragione delle diverse funzioni alle quali dovevano assolvere e del diverso livello di granularità previsto nella strutturazione dei concetti. Tuttavia, la significativa sovrapponibilità semantica tra le due risorse e l'utilizzo congiunto previsto per talune funzioni della piattaforma hanno reso opportuna la definizione di mapping esterni su diversi livelli (ex. exactMatch; broadMatch/narrowMatch) tra i concetti presenti nell'ontologia e nel thesaurus.

[28] La mancanza dei medesimi documenti disponibili in entrambe le lingue non ha permesso di costruire un corpus parallelo.

[29] Douglas Biber, Representativeness in corpus design, "Journal of Literary and Linguistic Computing", 8 (1993) 4, p. 243-257.

[30] Jennifer Pearson, Terms in Context, Amsterdam-Philadelphia, John Benjamins Publishing Company, 1998.

[31] Le principali fonti analizzate per la selezione delle riviste di settore sono state il Registro degli operatori di comunicazione (ROC), affidato all'Autorità per le Garanzie nelle Comunicazioni (AGCOM) (per i soli documenti in lingua italiana) e il database bibliografico Ulrich's - Serials Solutions.

[32] A tal fine si è fatto riferimento ai campi semantici attraverso i quali è strutturato il Thésaurus du Tourisme et des Loisirs e alle voci indice o categorie di classificazione associate ai documenti selezionati.

[33] Assunta Caruso - Antonietta Folino - Francesca Parisi - Roberto Trunfio, A statistical method for minimum corpus size determination, in Actes 12es Journées internationales d'Analyse statistique des Données Textuelles (JADT 2014), a cura di Emilie Née, Mathieu Valette, Jean-Michel Daube and Serge Fleury, Parigi Francia, 2014 p. 135-146.33.

[34] L'applicazione di tale metodologia al sotto corpus in lingua italiana ha dimostrato che il numero di testi collezionati è più che sufficiente (4000 testi rispetto ai circa 2000 richiesti) considerato l'andamento dell'indice di ricchezza linguistica.

[35] Sviluppato dall'Istituto di Linguistica Computazionale del Consiglio Nazionale delle Ricerche (ILC-CNR) di Pisa, T2K Text-to-Knowledge <http://t2k.italianlp.it/>.

[36] Felice Dell'Orletta - Giulia Venturi - Andrea Cimino - Simonetta Montemagni, T2K2: a System for Automatically Extracting and Organizing Knowledge from Texts, in Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC 2014), edited by Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Hrafn Loftsson, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk and Stelios Piperidis, Reykjavik, Iceland, 2014, p. 2062-2070.

[37] Le risorse e le regole linguistiche attualmente disponibili permettono di processare testi in lingua italiana e in lingua inglese. Il software permette inoltre di estrarre Named Entities e di visualizzare le relazioni tra le entità estratte sotto forma di un knowledge graph.

[38] Da un punto di vista quantitativo il numero totale di candidati a termine estratti dal sotto corpus in lingua italiana è pari a 384.352, mentre per quello in lingua inglese è pari a 207.568. Malgrado tale differenza, l'indice di densità lessicale calcolato per i due sotto corpora è pressoché identico: rispettivamente 0,59 e 0,60.

[39] ISO 25964-1:2011, Information and documentation - Thesauri and interoperability with other vocabularies, Part 1: Thesauri for information retrieval.

[40] ISO 25964-2:2013, Information and documentation - Thesauri and interoperability with other vocabularies, Part 2: Interoperability with other vocabularies.

[41] Fatta eccezione per le relazioni di equivalenza, dal momento che la relazione interlinguistica interessa solo i termini preferiti.

[42] Ciò permetterebbe di attribuire ad entrambe le lingue lo stesso status e di gestire, ad esempio, situazioni in cui le relazioni semantiche non rispecchiano l'organizzazione concettuale delle lingue di riferimento (es. Il concetto Strutture ricettive/Accommodation facilities non ha i medesimi concetti subordinati in italiano e in inglese).

[43] Oltre a categorie generiche quali Agenti, Attività, Strumenti, Processi, il thesaurus prevede anche categorie più specifiche, rappresentative del dominio turistico, quali Strutture, Servizi, POI (Point of Interest).

[44] Le tipologie di albergo ad esempio si distinguono in base alla classificazione (alberghi a una stella, a due stelle, ecc.), in base alla località (alberghi di città, termali, ecc.), mentre le tipologie di escursioni in base alla durata (escursioni giornaliere, plurigiornaliere, ecc.) o in base alla modalità (a cavallo, a piedi, in bicicletta, ecc.).

[45] Il thesaurus è stato realizzato utilizzando il software Multites.

[46] <http://www.w3.org/2001/sw/Europe/reports/thes/skosapi.html>.




«Bibliotime», anno XVIII, numero 2 (luglio 2015)

Precedente Home Successiva


URL: http://www.aib.it/aib/sezioni/emr/bibtime/num-xviii-2/cardillo.htm