Bibliotime, XVIII, 2 - Elena Cardillo, Assunta Caruso, Antonietta Folino, Erika Pasceri, Gestione e organizzazione della conoscenza specialistica: esperienze a confronto

Nel presente articolo sono state descritte le caratteristiche dei principali sistemi di organizzazione e rappresentazione della conoscenza specialistica legata ai domini della sanità elettronica e del turismo, per i quali sono state presentate le principali attività di ricerca portate avanti dal Laboratorio di Documentazione (LabDoc) e dall'IIT-CNR sede di Rende. Tali attività mirano allo sviluppo di metodologie e modelli per la gestione, formalizzazione ed integrazione della conoscenza al fine di realizzare prodotti e servizi in domini applicativi differenti.

La descrizione delle attività di ricerca è stata volutamente focalizzata su ambiti sensibilmente diversi per mettere in evidenza la trasversalità e la varietà degli approcci metodologici utilizzati. Nell'ambito della sanità elettronica ci si è concentrati maggiormente sui sistemi di gestione della conoscenza per la codifica dei dati sanitari e sull'importanza di tali sistemi per la corretta condivisione delle informazioni, mentre nell'ambito del turismo si è data maggiore rilevanza alla descrizione del processo metodologico che ha portato alla costruzione di un vocabolario controllato. Il valore aggiunto di tali risorse risiede nella possibilità di riutilizzarle con obiettivi che vanno al di là delle finalità che ne hanno determinato la costruzione - legate alle specifiche esigenze dei progetti di ricerca - e che potrebbero consistere, ad esempio, nell'arricchimento della descrizione di determinati domini, attraverso l'integrazione e l'allineamento a sistemi di gestione della conoscenza già esistenti o nella possibilità di fornire servizi terminologici ad un pubblico più vasto ed eterogeneo attraverso l'utilizzo di nuove tecnologie.

Antonietta Folino, Dipartimento di Lingue e Scienze dell'Educazione - Universit� della Calabria, Rende (CS), e-mail: antonietta.folino@unical.it
Assunta Caruso, Dipartimento di Lingue e Scienze dell'Educazione - Universit� della Calabria, Rende (CS), e-mail: susie.caruso@unical.it
Erika Pasceri, CNR - Istituto di Informatica e Telematica, Rende (CS), e-mail: erika.pasceri@unibo.it
Elena Cardillo, CNR - Istituto di Informatica e Telematica, Rende (CS), e-mail: elena.cardillo@iit.cnr.it

Note

[1] Le attività descritte sono svolte presso il Laboratorio di Documentazione del Dipartimento di Lingue e Scienze dell'Educazione dell'Università della Calabria e dall'Istituto di Informatica e Telematica del Consiglio Nazionale delle Ricerche (IIT-CNR), sede di Cosenza, che ha sede presso lo stesso Labdoc, <www.labdoc.it> e <http://www.iit.cnr.it/node/31599>.

[2] Werner Ceusters - Barry Smith - Jim Flanagan, Ontology and Mapping Terminology: Why Description Logics Are Not Enough, in Proceedings Towards an Electronic Patient Record, Boston, MA, Medical Records Institute, 2003, <http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.91.4053&rep=rep1&type=pdf>.

[3] Alan Rector, Clinical terminology: Why is it so hard?, "Methods of Information in Medicine", 38 (1999) 4, p. 239-252.

[4] Klaar Vanopstal - Joost Buysschaert - Godelieve Laureys - Robert Vander Stichele, Impact of language skills and system experience on medical information retrieval, "PhD Thesis", University of Ghent, University Press bvba, 2013.

[5] Elena Cardillo - Maria Teresa Chiaravalloti - Erika Pasceri, Assessing ICD-9-CM and ICPC-2 Use in Primary Care. An Italian Case Study, in Proceedings of the 5^th International Conference on Digital Health 2015, edited by Patty Kotsova and Floriana Grasso, ACM New York - USA, May 18 - 20, 2015, Florence, Italy, p. 95-102.

[6] <http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=OJ:L:2011:088:0045:0065:EN:PDF>.

[7] Maria Teresa Chiaravalloti - Roberto Guarasci - Vincenzo Lagani - Erika Pasceri - Roberto Trunfio, A Coding Support System for the ICD-9-CM standard, in IEEE International Conference on Healthcare Informatics, Verona, 15 - 17 September 2014.

[8] Margaret M. Foley, Key issues shaping clinical terminology and classification, "Journal of AHIMA", 77 (2006) 7, July/August 2006.

[9] <http://www.nlm.nih.gov/pubs/factsheets/umls.html>.

[10] Kin Wah Fung - Olivier Bodenreider, Utilizing the umls for semantic mapping between terminologies, in "Proceedings of AMIA Annual Symposium 2005", AMIA2005, p. 266�270.

[11] Yefeng Wang - Jon Patrick, Graeme Miller - Julie O'Halloran, Linguistic mapping of terminologies to SNOMED CT, in "Proceedings of the Semantic Maining Conference on SNOMED CT-SMCS 2006", Copenhagen, Denmark, 2006.

[12] Elena Cardillo - Genaro Hernandez - Olivier Bodenreider, Integrating consumer-oriented vocabularies with selected professional ones from the UMLS using Semantic Web Technologies, Proceedings of the 3^rd International Conference on Electronic Healthcare 2010, eHealth2010, Casablanca, Morocco, 2010.

[13] Nicolette F. de Keizer - Ameen Abu-Hanna, Understanding terminological system ii: Experience with conceptual and formal representation of structure, "Methods Inf. Med", 39(2000) 1, p. 22�29.

[14] <http://www.ihtsdo.org/>.

[15] <http://www.who.int/en/>.

[16] <http://www.globalfamilydoctor.com/groups/WorkingParties/wicc.aspx>.

[17] Sue Bowman, Coordinating SNOMED-CT and ICD-10: Getting the most out of electronic health record systems, "Journal of the American Health Information Management Association", 76(2005)7, p.60-61.

[18] IHTSDO, SNOMED CT® to ICD-9-CM Rule Based Mapping to Support Reimbursement, International Health Terminology Standards Development Organisation, Ottobre 2009.

[19] Graeme Miller, Integrating SNOMED CT and ICPC-2 in GP EHRs, Terminology and EHR Structure Working Group, Wonca International Classification Committee, Family Medicine Research Centre, The University of Sydney, 2010, <http://www.racgp.org.au/scriptcontent/nswwonca/04202010_Dr_Graeme_Miller.pdf>.

[20] Accommodation Ontology, <http://ontologies.sti-innsbruck.at/acco/ns.html>.

[21] Mirella Dell'Erba - Oliver Fodor - Francesco Ricci, Hannes Werthner. Harmonise, A Solution for Data Interoperability, in Towards the Knowledge Society, IFIP, The International Federation for Information Processing, Springer US, 105(2003), p. 433-445, doi: 10.1007/978-0-387-35617-4_28

[22] Shiyan Ou - Victor Pekar - Constantin Orasan - Christian Spurk - Matteo Negri, Development and Alignment of a Domain-Specific Ontology for Question Answering, Proceedings of the Sixth International Language Resources and Evaluation (LREC 2008), Marrakech, Morocco, 2008, p. 2221-2228.

[23] Secrétariat d'État au Tourisme de la France, Organisation Mondiale du Tourisme, Thésaurus du tourisme et des loisirs, versione italiana a cura di Cosimo Notarstefano, Galatina, Ed. Salentina, 2002.

[24] Il Thésaurus du Tourisme et des Loisirs rappresenta una risorsa significativa ai fini delle attività progettuali qui descritte. Tuttavia, la scelta di costruire un thesaurus ex novo piuttosto che adattare e modificare il Thésarus è dipesa da molteplici fattori: la data di aggiornamento dell'ultima versione in lingua italiana risale al 2006, quindi non rispecchia le più recenti evoluzioni concettuali; la versione italiana del thesaurus, sebbene non sia frutto di una mera traduzione, riflette l'impostazione concettuale e la terminologia della prima versione linguistica realizzata, ovvero quella francese; la strutturazione dei concetti in campi semantici non corrisponde alla scelta di costruire un thesaurus con un'organizzazione a faccette; la copertura semantica delle due risorse è solo parzialmente sovrapponibile. Il Thésaurus è stato comunque utilizzato sia come fonte di riferimento, che come strumento di validazione dei termini estratti e si sta ipotizzando di definire un sistema di mapping tra tale risorsa e il thesaurus definito nell'ambito del progetto INMOTO.

[25] La versione quadrilingue che comprende - oltre al francese, all'inglese e allo spagnolo - anche l'italiano, è stata curata dall'Università degli Studi di Lecce.

[26] Programma Operativo Nazionale (PON) Ricerca e Competitività 2007-2013, Smart Cities and Communities and Social Innovation, Asse e Obiettivo: Asse II- Azioni integrate per lo sviluppo sostenibile, Ambito: Smart Culture e Turismo, Progetto esecutivo integrato-Cluster Cultura e Turismo DiCeT-LivingLab Di Cultura e Tecnologia, INMOTO-INformation and MObility for TOurism, OR.C.HE.S.T.R.A.-Organization of Cultural Heritage for Smart Tourism and Real-time Accessibility. Nello specifico l'attività di cui al presente paragrafo rientra nel task A2.2.3 Strumenti linguistici per la rappresentazione semantica e indicizzazione delle informazioni, parte a sua volta dellOR 2.2 Ontologia e analisi semantica, mappatura e indicizzazione.

[27] Il progetto ha previsto anche la definizione di un'ontologia di dominio. Ontologia e thesaurus sono stati pensati e sviluppati fin dalle prime fasi del progetto come sistemi indipendenti in ragione delle diverse funzioni alle quali dovevano assolvere e del diverso livello di granularità previsto nella strutturazione dei concetti. Tuttavia, la significativa sovrapponibilità semantica tra le due risorse e l'utilizzo congiunto previsto per talune funzioni della piattaforma hanno reso opportuna la definizione di mapping esterni su diversi livelli (ex. exactMatch; broadMatch/narrowMatch) tra i concetti presenti nell'ontologia e nel thesaurus.

[28] La mancanza dei medesimi documenti disponibili in entrambe le lingue non ha permesso di costruire un corpus parallelo.

[29] Douglas Biber, Representativeness in corpus design, "Journal of Literary and Linguistic Computing", 8 (1993) 4, p. 243-257.

[30] Jennifer Pearson, Terms in Context, Amsterdam-Philadelphia, John Benjamins Publishing Company, 1998.

[31] Le principali fonti analizzate per la selezione delle riviste di settore sono state il Registro degli operatori di comunicazione (ROC), affidato all'Autorità per le Garanzie nelle Comunicazioni (AGCOM) (per i soli documenti in lingua italiana) e il database bibliografico Ulrich's - Serials Solutions.

[32] A tal fine si è fatto riferimento ai campi semantici attraverso i quali è strutturato il Thésaurus du Tourisme et des Loisirs e alle voci indice o categorie di classificazione associate ai documenti selezionati.

[33] Assunta Caruso - Antonietta Folino - Francesca Parisi - Roberto Trunfio, A statistical method for minimum corpus size determination, in Actes 12es Journées internationales d'Analyse statistique des Données Textuelles (JADT 2014), a cura di Emilie Née, Mathieu Valette, Jean-Michel Daube and Serge Fleury, Parigi Francia, 2014 p. 135-146.33.

[34] L'applicazione di tale metodologia al sotto corpus in lingua italiana ha dimostrato che il numero di testi collezionati è più che sufficiente (4000 testi rispetto ai circa 2000 richiesti) considerato l'andamento dell'indice di ricchezza linguistica.

[35] Sviluppato dall'Istituto di Linguistica Computazionale del Consiglio Nazionale delle Ricerche (ILC-CNR) di Pisa, T2K Text-to-Knowledge <http://t2k.italianlp.it/>.

[36] Felice Dell'Orletta - Giulia Venturi - Andrea Cimino - Simonetta Montemagni, T2K²: a System for Automatically Extracting and Organizing Knowledge from Texts, in Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC 2014), edited by Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Hrafn Loftsson, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk and Stelios Piperidis, Reykjavik, Iceland, 2014, p. 2062-2070.

[37] Le risorse e le regole linguistiche attualmente disponibili permettono di processare testi in lingua italiana e in lingua inglese. Il software permette inoltre di estrarre Named Entities e di visualizzare le relazioni tra le entità estratte sotto forma di un knowledge graph.

[38] Da un punto di vista quantitativo il numero totale di candidati a termine estratti dal sotto corpus in lingua italiana è pari a 384.352, mentre per quello in lingua inglese è pari a 207.568. Malgrado tale differenza, l'indice di densità lessicale calcolato per i due sotto corpora è pressoché identico: rispettivamente 0,59 e 0,60.

[39] ISO 25964-1:2011, Information and documentation - Thesauri and interoperability with other vocabularies, Part 1: Thesauri for information retrieval.

[40] ISO 25964-2:2013, Information and documentation - Thesauri and interoperability with other vocabularies, Part 2: Interoperability with other vocabularies.

[41] Fatta eccezione per le relazioni di equivalenza, dal momento che la relazione interlinguistica interessa solo i termini preferiti.

[42] Ciò permetterebbe di attribuire ad entrambe le lingue lo stesso status e di gestire, ad esempio, situazioni in cui le relazioni semantiche non rispecchiano l'organizzazione concettuale delle lingue di riferimento (es. Il concetto Strutture ricettive/Accommodation facilities non ha i medesimi concetti subordinati in italiano e in inglese).

[43] Oltre a categorie generiche quali Agenti, Attività, Strumenti, Processi, il thesaurus prevede anche categorie più specifiche, rappresentative del dominio turistico, quali Strutture, Servizi, POI (Point of Interest).

[44] Le tipologie di albergo ad esempio si distinguono in base alla classificazione (alberghi a una stella, a due stelle, ecc.), in base alla località (alberghi di città, termali, ecc.), mentre le tipologie di escursioni in base alla durata (escursioni giornaliere, plurigiornaliere, ecc.) o in base alla modalità (a cavallo, a piedi, in bicicletta, ecc.).

[45] Il thesaurus è stato realizzato utilizzando il software Multites.

[46] <http://www.w3.org/2001/sw/Europe/reports/thes/skosapi.html>.

Diagnosi inserita dai MMG	Codice ICD9-CM Utilizzato	Codice disponibile NON utilizzato
Screening per dislipidemia	V77.99 - Screening per altri e non specificati disturbi endocrini, nutritivi, metabolici e immunitari	V77.91 - Screening per l'alterazione dei valori dei lipidi
Vertigini	388.8 - Altri disturbi dell'orecchio	438.85 - Vertigini

Termine ICD10	Termine in ICPC-2
R51 (Cefalea)	N01 (Cefalea)
G44.3 (Cefalea cronica post-traumatica)
G44.8 (Altre sindromi cefalalgiche specificate)

Abstract

1. Introduzione

2. L'importanza dei KOS nell'ambito medico-sanitario: il caso FSE

3. Gestione e organizzazione della conoscenza nel dominio del Turismo: il caso INMOTO

4. Accessibilità e pubblicazione dei sistemi di organizzazione della conoscenza

5. Conclusioni e prospettive

Note