Marco Passarotti
Università Cattolica del Sacro Cuore
Le risorse linguistiche e la loro interoperabilità
Le ‘risorse linguistiche’ sono raccolte di dati linguistici, categorizzabili in due tipi: risorse testuali (i corpora) e risorse lessicali (come i lessici, o i dizionari). A partire dagli anni Novanta del secolo scorso, la crescita progressiva di disponibilità di evidenza empirica di tipo linguistico raccolta in forma di risorse è stata il volàno che, in una sorta di circolo virtuoso, ha portato a una svolta empirista nel trattamento automatico del linguaggio (TAL): strumenti di tipo probabilistico ‘imparano’ regolarità a partire da un insieme di dati di addestramento che consistono, appunto, in corpora testuali. Il circolo è virtuoso in quanto risorse testuali più grandi tendono a consentire addestramenti migliori e, quindi, strumenti che forniscono prestazioni più accurate, che, a propria volta, favoriscono lo sviluppo di ulteriori corpora annotati, anche tramite l’eventuale ulteriore supporto fornito dai dati delle risorse lessicali.
Come molte altre lingue, nel corso dell’ultimo decennio anche il latino ha visto un notevole incremento del numero e delle tipologie delle proprie risorse. All’origine della Linguistica Computazionale grazie al lavoro avviato nei primi anni Cinquanta dal gesuita padre Roberto Busa sui testi di Tommaso d’Aquino, il latino ha oggi disponibili grandi corpora, come ad esempio quello prodotto dal laboratorio LASLA a Liegi (http://web.philo.ulg.ac.be/lasla/), biblioteche digitali, come Perseus (http://www.perseus.tufts.edu/hopper/), ‘treebank’, ovvero corpora annotati a livello sintattico, tra cui la Index Thomisticus Treebank che include circa 500,000 parole (Passarotti, 2019), oltre che vari tipi di lessici, quali ad esempio Latin WordNet (Minozzi, 2017), il lessico morfologico-derivazionale Word Formation Latin (Litta & Passarotti, 2019) e il lessico di valenza Latin Vallex (Passarotti et alii, 2016).
L’attuale, notevole disponibilità di risorse linguistiche ha sollevato il problema della loro reperibilità e compatibilità. Per far fronte a questa difficoltà, ormai da più di un decennio è disponibile l’infrastruttura CLARIN (www.clarin.eu), che rappresenta un luogo condiviso dove le risorse possono essere pubblicate, indagate e, nella maggior parte dei casi, scaricate, sollevando così gli utenti dalla necessità di cercare i (meta)dati che servono loro nei repository dei diversi sviluppatori e distributori di risorse.
Costituito un luogo comune dove depositare e trovare le risorse linguistiche, la sfida attuale consiste nel farle interagire tra loro, ovvero creare ‘interoperabilità’ tra risorse distribuite sul web. Una risposta a tale sfida è venuta negli ultimi anni dall’applicazione dei principii del paradigma Linked Data a dati linguistici da parte della comunità scientifica che lavora sui cosiddetti Linguistic Linked Open Data (LLOD) e che ha realizzato una serie di ontologie specificamente dedicate alla rappresentazione di informazione (meta)linguistica, oltre che un cloud di risorse linguistiche interoperabili in quanto pubblicate in modalità Linked Data (LOD Cloud: https://lod-cloud.net).
Il paradigma Linked Data e l’architettura della LiLa Knowledge Base
Proprio il latino si trova in una posizione tale da segnare lo stato dell’arte nell’interoperabilità tra le risorse linguistiche in Linked Data. Nel giugno del 2018, infatti, ha preso avvio un progetto finanziato dallo European Research Council (ERC) che ha come obiettivo la realizzazione di una Knowledge Base di risorse latine interoperabili secondo il paradigma Linked Data. Il progetto, nominato LiLa: Linking Latin (https://lila-erc.eu/), è attualmente in corso presso il centro di ricerca CIRCSE dell’Università Cattolica del Sacro Cuore di Milano e durerà fino al giugno 2023.
L’architettura della LiLa Knowledge Base è fondata sul ruolo centrale assegnato al lemma, attraverso cui le componenti delle varie risorse linguistiche per il latino entrano in reciproca interazione. La Figura 1 la mostra: le risorse lessicali sono costituite da entrate lessicali, che descrivono proprietà di parole; le risorse testuali includono occorrenze di parole in testi (‘token’); gli strumenti di TAL (in inglese Natural Language Processing: NLP) producono in output diversi tipi di analisi linguistiche, tra cui anche token (tokenizzatori), che a propria volta sono input di altri strumenti di TAL (come, ad esempio, un parser sintattico). Tutte queste componenti sono rese interoperabili in LiLa attraverso il loro collegamento (‘linking’) a una raccolta di circa 200.000 forme di citazione, ovvero lemmi, del latino (chiamata ‘Lemma Bank’), che rappresenta il cuore stesso della Knowledge Base.
Figura 1. L’architettura fondamentale di LiLa
L’interoperabilità tra le risorse latine pubblicata come LLOD sul web è resa possibile facendo fronte ai principii del paradigma Linked Data (Berners-Lee, 2006), che stabiliscono di:
- assegnare identificativi unici (URI: Uniform Resource Identifier) alle ‘cose’ con cui si ha a che fare;
- utilizzare un protocollo di comunicazione come HTTP al fine di consentire di individuare e osservare le ‘cose’;
- utilizzare standard per rappresentare e ricercare le ‘cose’, come RDF (Resource Description Framework) (Lassila & Swick, 1998) e SPARQL (SPARQL Protocol and RDF Query Language) (Prud’Hommeaux & Seaborne, 2008);
- includere link ad altri URI, per consentire di scoprire altre ‘cose’.
Nel caso di LiLa, e più in generale dei LLOD, le ‘cose’ con cui si ha a che fare sono (meta)dati linguistici: parole, parti del discorso, relazioni sintattiche, affissi, morfemi etc. Questi (meta)dati, forniti dalle varie risorse linguistiche, interagiscono grazie alla loro rappresentazione attraverso una ‘lingua’ comune, ovvero un vocabolario condiviso che stabilisce quali siano le classi degli oggetti in questione e le relazioni che si possono istituire tra essi. Siffatte descrizioni formali di “ciò che c’è” sono, non a caso, chiamate ‘ontologie’. Le risorse linguistiche in LLOD, dunque, devono, nel limite del possibile, essere rappresentate utilizzando ontologie comuni, fondandosi su un modello dei dati comune. Questo modello è RDF, che è incentrato sull’idea di ‘tripla’: il Semantic Web, che è la realizzazione più manifesta del paradigma Linked Data, è costituito da miliardi di triple, ovvero relazioni tra un ‘Soggetto’ e un ‘Oggetto’ attraverso un Predicato, chiamato ‘Proprietà’. Le ontologie stabiliscono quali Proprietà possono connettere quali classi di Soggetti a quali classi di Oggetti.
La Figura 2 mostra alcuni esempi di triple in una visualizzazione a grafo adottata in LiLa sulla base dello strumento LodLive (Camarda et alii, 2012), dove i Soggetti e gli Oggetti sono rappresentati in termini di nodi e le Proprietà sono frecce che connettono nodi.
Figura 2. Alcune triple di LiLa
L’immagine riportata in Figura 2 è centrata intorno al nodo per il lemma conduco, che fa parte della Lemma Bank di LiLa ed è un individuo della classe Lemma della ontologia di LiLa, a propria volta una sottoclasse di Lexical Form del vocabolario dell’ontologia OntoLex Lemon (McCrae et alii, 2017). Questo nodo è linkato, attraverso la Proprietà ‘hasBase’ (definita nell’ontologia di LiLa), a un nodo nominato (ovvero “che ha label”) “Base of duco”, che funge da collettore cui sono connessi tutti i lemmi della Lemma Bank formati con la medesima base lessicale di duco, come ad esempio introduco (visibile in Figura 2, con variante introduco). Inoltre, ciascun lemma della Lemma Bank che includa uno o più elementi affissali nella propria formazione è linkato ad esso/i: nel caso di introd(o)uco, il lemma è linkato tramite la Proprietà di LiLa ‘hasPrefix‘ al nodo per il prefisso intro–, che a propria volta è collettore di tutti i lemmi della Lemma Bank formati con quell’affisso, tra cui introspecto, mostrato nella Figura.
Il nodo di conduco è altresì collegato attraverso la Proprietà ‘canonicalForm‘ di OntoLex Lemon a un individuo della classe Lexical Entry, che è l’entrata lessicale conduco in una porzione di Latin WordNet controllata manualmente (Franzini et alii, 2019). Tale entrata lessicale è linkata attraverso la Proprietà di OntoLex Lemon ‘evokes‘ (inversamente: ‘isEvokedBy’) a un individuo di classe Lexical Concept (del medesimo vocabolario) che consiste nel WordNet synset identificato con il codice 01295275-v nel Princeton WordNet (http://wordnet-rdf.princeton.edu), che ha glossa “cause to become joined or linked”. A questo nodo sono connessi tutti i lemmi della Lemma Bank che lo ‘evocano’: in Figura 2 sono visibili, ad esempio, i nodi per i lemmi adiungo e committo. Infine, al nodo di conduco sono linkati i nodi di tutti i token per le occorrenze di quel lemma nei vari corpora testuali inclusi nella Knowledge Base LiLa.
Questa organizzazione e pubblicazione dei (meta)dati delle risorse linguistiche consente di operare ricerche che “attraversino” le triple della LiLa Knowledge Base, facendo interagire l’informazione portata dalle singole risorse in essa incluse. Riprendendo il caso di conduco, è possibile ad esempio ottenere le occorrenze testuali in più corpora latini di tutte le parole che condividono uno dei synset di WordNet cui appartiene conduco, oppure quelle delle parole che sono formate con il prefisso intro-.
Al momento, LiLa include più di 40 milioni di triple, risultanti dalla pubblicazione in LLOD di numerose risorse testuali e lessicali per il latino. Attraverso l’endpoint SPARQL di LiLa è possibile comporre e lanciare ricerche sulla Knowledge Base (https://lila-erc.eu/sparql/). Una serie di query precompilate è messa a disposizione degli utenti che non avessero dimestichezza con il linguaggio SPARQL; in particolare, due di esse consentono di produrre l’elenco esaustivo delle risorse al momento rese interoperabili in LiLa. Presso https://lila-erc.eu/query/ è, inoltre, disponibile un’interfaccia grafica che permette di operare ricerche sulla Knowledge Base a partire dalle entrate della Lemma Bank.
Per approfondire
Berners-Lee Tim. 2006. Linked Data https://www.w3.org/DesignIssues/LinkedData.html.
Camarda, D.V., Mazzini, S. & Antonuccio, A. 2012. LodLive, exploring the web of data, in Sack, H., Pellegrini, T., Presutti, V. & Pinto, H.S. (eds.), Proceedings of the 8th International Conference on Semantic Systems (197-200), New York: Association for Computing Machinery.
Franzini Greta, Peverelli Andrea, Ruffolo, Paolo, Passarotti Marco, Sanna Helena, Signoroni Edoardo, Venturi Viviana & Zampedri Federica. 2019. Nunc Est Aestimandum: Towards an Evaluation of the Latin WordNet, in Bernardi, R., Navigli, R. & Semeraro, G. (eds.), Proceedings of the Sixth Italian Conference on Computational Linguistics (1-8), Bari: CEUR Workshop Proceedings.
Lassila Ora, Swick Ralph R. 1998. Resource description framework (RDF) model and syntax specification http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.44.6030.
Litta Eleonora, Passarotti Marco. 2019. (When) inflection needs derivation: a word formation lexicon for Latin, in Holmes, N., Ottink, M., Schrickx, J. & Selig, M. (eds.), Lemmata Linguistica Latina. Volume I: Words and Sounds (224-239), Berlin-Boston: Walter de Gruyter GmbH.
McCrae John P., Bosque-Gil Julia, Gracia Jorge, Buitelaar Paul & Cimiano Philip. 2017. The Ontolex-Lemon model: development and applications, in Kosem, I., Tiberius, C., Jakubicek, M., Kallas, J., Krek, S. & Baisa, V. (eds.), Proceedings of eLex 2017 conference (19-21), Brno: Lexical Computing CZ s.r.o.
Minozzi Stefano. 2017. Latin WordNet, una rete di conoscenza semantica per il latino e alcune ipotesi di utilizzo nel campo dell’Information Retrieval, in Mastandrea, P. (a cura di), Strumenti digitali e collaborativi per le Scienze dell’Antichita (123-134), Venezia: Edizioni Ca’ Foscari.
Passarotti Marco. 2019. The Project of the Index Thomisticus Treebank, in Berti, M. (ed.), Digital Classical Philology. Vol. 10 of Age of Access? Grundfragen der Informationsgesellschaft (299-320), Berlin-Boston: Walter de Gruyter GmbH.
Passarotti Marco, Saavedra Gonzalez Berta & Onambele Cristophe. 2016. Latin vallex. a treebank-based semantic valency lexicon for Latin, in Calzolari, N., Choukri, K., Declerck, T., Grobelnik, M., Maegaard, B., Mariani, J., Moreno, A., Odijk, J. & Piperidis, S. (eds.), Proceedings of the Tenth International Conference on Language Resources and Evaluation (2599-2606), Paris: European Language Resources Association.
Prud’Hommeaux Eric, Seaborne Andy. 2008. SPARQL Query Language for RDF. W3C, https://www.w3.org/TR/rdf-sparql-query/
Ringraziamenti
Il progetto “LiLa: Linking Latin” è finanziato dallo European Research Council (ERC-Consolidator Grant) nell’ambito del programma Horizon 2020 – Grant Agreement N. 769994.
0 Commenti
Lascia un commento