Silvia Micheli
Sappiamo che una caratteristica fondamentale di tutte le lingue, in quanto legate all’attività dell’uomo, è il loro mutare nel tempo. Tale mutamento può riguardare solo alcuni aspetti di una lingua o essere più pervasivo; può portare alla sostituzione di un elemento (fonetico, morfologico, etc.) con un altro oppure può interrompersi dopo aver lasciato di sé solo alcune tracce. I mutamenti possono quindi seguire strade diverse ma ciò che li accomuna tutti è che non sono mai netti, non determinano cioè il sostituirsi immediato di una situazione con un’altra, ma sono piuttosto processi graduali, rappresentabili come la somma di tanti micro-cambiamenti che si manifestano, e che quindi possiamo osservare, nel corso del tempo. Per intercettare i mutamenti che hanno interessato una determinata lingua occorre infatti porsi in una prospettiva diacronica, ossia focalizzata su un arco temporale sufficientemente ampio da permetterci di cogliere tali micro-cambiamenti.
Trattandosi di un fenomeno connaturato nelle lingue, il mutamento è ovviamente di interesse per i linguisti, che fin dalla nascita della disciplina si sono dedicati allo studio dei cambiamenti verificatisi sui diversi livelli di analisi, in primis quello fonologico e quello morfologico. Se però nel tardo Ottocento lo studio del mutamento era affidato allo spoglio manuale di testi di epoche diverse, i linguisti di oggi possono contare su uno strumento che permette di affinare significativamente le loro analisi: i corpora diacronici. Come i corpora sincronici, i corpora diacronici sono raccolte di testi in formato elettronico che possono essere interrogati attraverso una interfaccia che semplifica l’estrazione dei dati: possiamo cercare una singola parola o una combinazione di parole e ottenere tutti i contesti in cui quella parola o quella combinazione di parole sono state utilizzate dai parlanti (come nell’esempio riportato nella Figura 1).
Se i testi sono stati arricchiti di informazioni linguistiche parliamo di corpora annotati: questi ci permettono di fare ricerche basate non su una specifica parola ma su categorie più ampie come quella di ‘nome’ o di ‘verbo’. Le informazioni linguistiche con cui annotiamo un corpus sono primariamente relative al lemma della parola (per cui forme flesse come andammo, andrò, andremmo, vado sono tutte ricondotte al lemma andare) e alla sua parte del discorso (per cui le forme andammo, parleremo, cantai sono tutte associate all’etichetta ‘verbo’, etc.), ma esistono corpora che, oltre a queste, incorporano informazioni relative ad altri livelli di analisi, come la sintassi e la pragmatica.
Se queste caratteristiche sono condivise dai corpora sincronici e diacronici, ci sono però delle specificità dei corpora diacronici che li rendono degli strumenti più complessi da costruire e infatti più rari nell’ambito delle risorse linguistiche disponibili per una determinata lingua. Tali specificità riguardano tre aspetti: la disponibilità dei testi, l’organizzazione interna del corpus e le caratteristiche formali dei testi.
In primis, differentemente dai corpora che vogliono rappresentare una lingua nella fase contemporanea, i corpora diacronici devono contenere testi di periodi storici diversi ordinati cronologicamente, in modo da rappresentare una determinata lingua nel suo divenire storico. Tuttavia, mentre per le fasi più recenti non sarà difficile trovare dei testi da includere nel corpus, per alcune fasi (soprattutto quelle più antiche) può non essere scontato raccogliere un certo numero di testi che sia rappresentativo di quel periodo storico. Lingue come l’italiano e il francese, che hanno una ricca e costante tradizione testuale fin dal XIII secolo, sono quindi avvantaggiate rispetto a lingue per le quali si sono conservati meno testi per le fasi più antiche (come l’inglese).
Per poter confrontare fasi storiche diverse e seguire lo sviluppo di un mutamento occorre che il corpus sia diviso in sotto-sezioni (o, meglio, sotto-corpora), ciascuna rappresentativa di una determinata fase. Come individuare una specifica fase storica è argomento tutt’altro che banale: alcuni corpora sono strutturati in secoli (avremo quindi un sotto-corpus per il Duecento, uno per il Trecento, uno per il Quattrocento e così via), come il corpus diacronico del francese FranText; per altri, invece, è stato scelto di fissare una periodizzazione elaborata dagli storici della lingua, basata su alcune tappe fondamentali della storia linguistica e letteraria interna. Ne sono un esempio i due corpora diacronici disponibili per l’italiano, MIDIA (Morfologia dell’italiano in diacronia) e CODIT (Corpus diacronico dell’italiano), entrambi strutturati in cinque periodi (e quindi cinque sotto-corpora), compresi tra date significative per la storia linguistica (e letteraria) interna: il primo sotto-corpus, ad esempio, copre un periodo che va dai primi testi duecenteschi delle Origini al 1375, data di morte di Giovanni Boccaccio, convenzionalmente fissata come limite temporale della prima fase di vita della nostra lingua, denominata italiano antico. Ci sono poi alcuni, più rari, corpora che invece non presentano sotto-sezioni cronologiche ma raccolgono insieme tutti i testi, semplicemente associati all’anno di prima attestazione o pubblicazione (uno tra questi è il CORDE – Corpus Diacrónico del Español).
Una ulteriore questione legata alla struttura dei corpora diacronici riguarda le dimensioni dei sotto-corpora: per poter infatti confrontare le diverse sezioni del corpus occorre che per ciascuna di esse si raccolga circa lo stesso numero di testi (e che questi siano di lunghezza simile) in modo da avere sotto-corpora di dimensioni paragonabili. Questo implica che per alcune epoche si dovranno prendere tutti i testi consegnatici dalla tradizione, mentre per altre si dovrà fare una selezione dei più rappresentativi. La rappresentatività è un altro aspetto da tenere presente quando costruiamo un corpus diacronico: ciascun sotto-corpus dovrebbe in teoria contenere testi appartenenti a diverse tipologie (testi letterari in prosa e poesia, ma anche testi non letterari, come trattati scientifici e storico-filosofici) per poterci permettere di valutare se un determinato mutamento è avvenuto in tutte le varietà della lingua o se è circoscritto soltanto ad alcune in particolare. In ambito lessicale, la struttura in sottocorpora ci permette di osservare la frequenza di una determinata parola nei diversi tipi di testi e nei diversi periodi storici, come mostrato dalla Figura 2.
Rendere un corpus pienamente rappresentativo non è però sempre possibile, sia perché per alcune epoche abbiamo prevalentemente testi letterari e pochi testi non letterari, sia perché la definizione stessa di alcuni generi testuali come li conosciamo ora non è sempre applicabile alle fasi più antiche (non è infatti banale chiedersi: cos’era un testo scientifico nel Duecento?).
Non va inoltre dimenticato che il grande assente nelle analisi diacroniche è il parlato: per i secoli che precedono l’invenzione e la diffusione delle registrazioni audio e video non abbiamo infatti dati di questo tipo; questo significa che nel trarre conclusioni ed eventualmente formulare generalizzazioni dalle nostre analisi dobbiamo considerare che esse valgono soltanto per la dimensione scritta, anche se qualche indizio sul parlato può essere ricavato dall’analisi di particolari tipi di testi che generalmente accolgono fenomeni del parlato (come i dialoghi teatrali o le lettere personali).
Infine, dobbiamo tener presente che testi lontani nel tempo da noi possono non essere di facile comprensione anche per un lettore contemporaneo (anche se linguista!) e possono essere stati scritti adottando convenzioni grafiche diverse da quelle attuali: questi due aspetti rendono più difficoltose, rispettivamente, l’annotazione (dal momento che per assegnare la parte del discorso alle singole parole occorre comprendere pienamente il testo) e la lemmatizzazione (perché avremo, ad esempio, che una parola come casa può comparire nel corpus come ccasa, chasa, casa, caza, etc.). I corpora diacronici che includono testi molto antichi richiedono quindi un più complesso processo di preparazione rispetto a corpora pensati per lo studio diacronico di fasi più vicine ai giorni nostri (come il diaCORIS, che raccoglie testi italiani scritti dal 1861 al 1945).
Usare i corpora diacronici per analizzare il mutamento richiede di tener presente tutti questi aspetti per poter interpretare correttamente i dati raccolti; d’altra parte, le potenzialità di questi strumenti sono grandi: essi ci permettono infatti di osservare un determinato fenomeno linguistico in tanti testi appartenenti a epoche diverse (ma tutti interrogabili secondo le stesse convenzioni) e di dare una dimensione sia qualitativa sia quantitativa alla nostra analisi.
Per approfondire
D’Achille, Paolo & Grossmann, Maria. 2017. Per la storia della formazione delle parole in italiano: un nuovo corpus in rete (MIDIA) e nuove prospettive di studio. Firenze: Franco Cesati Editore.
Hilpert, Martin & Gries, Stefan. 2016. Quantitative approaches to diachronic corpus linguistics. In Kytö, Merja & Pahta, Päivi (eds.), The Cambridge Handbook of English Historical Linguistics, 36-53. Cambridge: Cambridge University Press.
Micheli, M. Silvia. 2022. CODIT. A new resource for the study of Italian from a diachronic perspective: Design and applications in the morphological field. Corpus 23. DOI: https://doi.org/10.4000/corpus.7306
0 Commenti
Lascia un commento