Claudia Roberta Combei
Alma Mater Studiorum – Università di Bologna
Navigando sul web, tra le tante notizie, può capitare di imbattersi in frasi come questa:
Niente da fare al termine di una sfida piena di emozioni per gli aquilotti di mister Pierini, che cedono tra le mura amiche ai pari età spallini (Spezia Calcio 2018)
Immaginiamo di essere estranei al mondo del calcio, oppure di aver iniziato da poco ad apprendere l’italiano come lingua seconda. Chi sono gli aquilotti e gli spallini?
La ricerca di queste parole su un vocabolario dovrebbe aiutarci a capire. Nel Dizionario Italiano Garzanti e nel Vocabolario Treccani sotto la voce aquilotto troviamo:
- il piccolo dell’aquila
- (in araldica) aquila posta nello scudo
- (in aeronautica) giovane pilota
La voce spallino manca sia nel Garzanti che nel Treccani, ma è presente nel Grande Dizionario Hoepli Italiano con i seguenti significati:
- portatore di pesi a spalla
- (toscano) spallina
Appare evidente come le definizioni trovate non ci permettono di interpretare la frase precedente.
Tentiamo una strada diversa! Se i dizionari non possono esserci d’aiuto, proviamo a cercare le stesse parole in un corpus, per esempio nel CORIS, su cui torneremo più avanti.
Ma cos’è un corpus?
È uno strumento usato dai linguisti che consente di vedere le parole nel loro contesto d’uso. Tornando alle nostre parole, nel CORIS aquilotto occorre 18 volte e nella metà dei casi compare in contesti calcistici, in relazione alla Lazio o allo Spezia, mentre spallino occorre 5 volte nel CORIS e in tutti i casi riguarda la SPAL. In effetti, un intenditore di calcio ci potrebbe facilmente confermare che un aquilotto è un calciatore o un sostenitore della Lazio o dello Spezia, mentre uno spallino lo è della SPAL.
Come riesce il corpus (al plurale: ‘corpora’) a far emergere anche quei significati a volte ignorati dai dizionari?
Proviamo a immaginare il corpus come una stampa 3D, in scala ridotta, dei moltissimi testi scritti o parlati prodotti da tutti i parlanti di una lingua. Una rappresentazione del genere (globale e collettiva) ci consente di avere una visuale diversa da quella che abbiamo di solito (che è parziale e individuale). Osservando questa stampa dall’alto o, più da vicino, nelle sue varie angolazioni, noteremo costruzioni poco usate o usate in contesti diversi da quelli a cui siamo abituati, di cui insomma ignoravamo l’esistenza. Dunque, potremmo dire che i corpora ci danno una rappresentazione concreta e tangibile della lingua, nei suoi usi reali.
Cerchiamo ora di dare una definizione di corpus, partendo dalle parole di uno dei padri della ‘linguistica dei corpora’, John Sinclair (2005: 16, traduzione mia):
Un corpus è una raccolta in formato elettronico di materiale linguistico, il cui campionamento segue – per quanto possibile – criteri di rappresentatività per la lingua o la varietà linguistica esaminata, e il cui scopo è servire da base per la ricerca linguistica.
Un aspetto fondamentale è l’autenticità del materiale raccolto. I testi provengono da fonti concrete e reali (es. giornali, pagine web, romanzi, ecc.) e sono sottoposti a trattamenti specifici per diventare leggibili e interrogabili dai computer. Ad esempio, per costruire un corpus di manoscritti antichi sarà necessario usare uno strumento di riconoscimento ottico dei caratteri per convertire il cartaceo in testo digitale.
Grazie al progresso tecnologico, la raccolta e la costruzione dei corpora sono diventate ormai pratiche comuni nella linguistica. Come mai prima d’ora si ha accesso a enormi quantità di dati e la possibilità di raccoglierli, trattarli e immagazzinarli è alla portata di tutti.
Analogamente agli studiosi di altre discipline, molti linguisti basano le proprie teorie sull’osservazione empirica di dati reali. Con i corpora quest’esplorazione diventa più rapida e agevole. Per esempio, in una ricerca sul lessico potrebbe interessarci scoprire come, quando, dove e quanto vengono usate le parole. I corpora ci aiutano a farlo, fornendoci informazioni quantitative sul fenomeno studiato, difficilmente ricavabili se ci affidassimo ai soli dizionari o se adottassimo un approccio puramente introspettivo, basato sulla nostra intuizione di parlanti.
Per rappresentare al meglio la lingua o una sua varietà, il materiale del corpus andrà selezionato seguendo una procedura rigorosa di campionamento. Questo ci consentirà di generalizzare le proprietà del corpus all’intera popolazione linguistica di riferimento.
Ma quali e quanti corpora esistono?
La risposta è: tantissimi! Non è questa la sede per fare una rassegna di tutti i corpora esistenti, ma per orientarsi sarà utile sapere che li possiamo classificare a seconda del loro scopo nella ricerca linguistica. Vediamo quali sono i principali tipi di corpora. La classificazione sarà trasversale e ci limiteremo, per semplicità, alla lingua italiana e alle risorse liberamente consultabili online.
La principale distinzione da fare riguarda il mezzo attraverso cui è veicolata la lingua: orale vs. scritto. I corpora di italiano scritto (es. CoLFIS, CORIS) contengono testi di varia natura (es. stampa, narrativa, ecc.), mentre i corpora di parlato (es. KIParla) contengono trascrizioni di conversazioni autentiche. Di seguito si forniscono due esempi dell’occorrenza della parola film, il primo da un corpus di lingua scritta (CORIS), il secondo da un corpus di lingua parlata (KIParla):
Figura 1. Occorrenza della parola film nel corpus CORIS
Figura 2. Occorrenza della parola film nel corpus KIParla
I testi contenuti nei corpora sono molto diversi. Infatti, esistono corpora generici (es. CORIS), raccolti da fonti varie per rappresentare la lingua in generale, e corpora specialistici (es. BoLC), basati su precise tipologie di testi (es. giuridici, medici).
Invece, il modo in cui il materiale linguistico viene selezionato rispetto all’asse temporale determinerà se si tratta di corpora sincronici (es. CORIS), che rispecchiano la lingua in un preciso momento della sua storia, o corpora diacronici (es. DiaCORIS), composti da testi appartenenti a periodi storici diversi, utili per osservare fenomeni di mutamento linguistico. Ad esempio, nel DiaCORIS, che contiene testi scritti a partire dal 1861, troviamo anche parole oggi in disuso quali desidia o estuoso, assenti nel CORIS, rappresentativo solo della lingua scritta dei giorni nostri. Un altro esempio è la parola cellulare, che nei testi più vecchi del DiaCORIS si riferisce alle cellule (es. tessuto cellulare), ai vagoni (es. vagone cellulare) e alle carceri (es. carcere cellulare), mentre, a partire dal 1998 le sue occorrenze riguardano anche i telefoni (es. telefonino cellulare).
Anche il numero di lingue è un criterio di classificazione. Esistono corpora monolingui (es. CORIS, ItWac), che contengono testi in una sola lingua, e corpora multilingui (es. EUR-lex), che raccolgono testi di due o più lingue. I corpora multilingui si suddividono ulteriormente in corpora comparabili (es. BoLC), che mettono insieme testi, in due o più lingue, appartenenti allo stesso dominio specialistico, e corpora paralleli (es. EuroParl), composti dalle traduzioni dello stesso testo in più lingue.
Infine, un’altra distinzione da fare è tra i corpora L1 (es. CORIS), che contengono testi prodotti da parlanti madrelingua, e i corpora L2 (es. LIPS, VALICO), composti da testi prodotti da parlanti non nativi.
Come possiamo sfruttare i corpora?
Usarli è semplicissimo! I corpora che troviamo online (come molti di quelli citati finora) dispongono di interfacce attraverso le quali possiamo consultarli. Se invece volessimo ‘interrogare’ un corpus costruito da noi dovremmo usare un programma specifico, ad esempio AntConc, un software intuitivo e funzionale, completamente gratuito.
Presentiamo ora alcune operazioni di base, che è possibile effettuare tramite l’esplorazione o l’analisi di un corpus, usando come esempio il corpus ItWac accessibile tramite la piattaforma NoSketchEngine del Dipartimento di Interpretazione e Traduzione (DIT) di Forlì.
Iniziamo dalla lista di frequenza che ci restituisce l’elenco dei lemmi o delle parole del corpus in ordine di frequenza, come nell’esempio della Figura 3. Come si può notare, quasi tutte le parole dell’esempio sono parole ‘funzionali’ (es. preposizioni, congiunzioni, articoli). Gli unici verbi presenti tra le prime 15 parole più frequenti del corpus ItWac sono essere e avere.
Figura 3. I 15 lemmi più frequenti nel corpus ItWac
Inoltre, sarà utile esplorare le concordanze, ovvero, tutti i casi in cui occorre nel corpus il termine ricercato, con contesto a sinistra e a destra. Il software Concordance dell’interfaccia ci fornirà informazioni anche sulla frequenza della parola nel corpus. Nella Figura 4 mostriamo un esempio di 5 concordanze, nel corpus ItWac, del lemma studente (che in totale occorre più di 300.000 volte).
Figura 4. Concordanze del lemma studente nel corpus ItWac
Inoltre, dai corpora possiamo estrarre le parole chiave, ovvero, le parole più caratterizzanti del corpus oggetto di analisi. Le parole chiave si ottengono tramite misurazioni di frequenza. Ad esempio, le prime 5 parole chiave per un corpus come ItWac sono: inviare, attività, registrare, articolo, link.
Infine, alcuni corpora ci restituiscono anche le collocazioni. A differenza delle concordanze, le collocazioni sono combinazioni di parole che compaiono insieme più spesso di quanto potremmo prevedere basandoci sul puro caso (es. animale esotico, birra artigianale, città natale, prendere visione, ecc.). La Figura 5, che mostra una rappresentazione grafica dei lemmi fortemente associati alla parola città, sembra proprio confermare le parole di John R. Firth (1957: 11): “You shall know a word by the company it keeps”.
Figura 5. Collocati lemma “città” nel corpus ItWac
Tutte queste risorse ci fanno capire come i corpora siano uno strumento prezioso per osservare la lingua nell’uso effettivo che ne fanno i parlanti, sia a scopo di ricerca scientifica sia per fini più applicativi. Oggi, infatti, i corpora vengono regolarmente consultati da lessicografi, traduttori, scrittori, insegnanti di lingue, che possono sfruttare questa finestra privilegiata sulla lingua.
Per approfondire
Baroni, Marco. 2010. Corpora di italiano. In Enciclopedia dell’italiano. Roma: Istituto della Enciclopedia Italiana G. Treccani.
Firth, John, R. 1957. Papers in Linguistics 1934–1951. London: Oxford University Press.
Sinclair, John. 2005. Corpus and text – Basic principles. In Martin Wynne (ed.), Developing linguistic corpora: A guide to good practice, 1-16. Oxford: Oxbow Books.
2 Commenti
Daniela Enrica Dell’Erba 23 Settembre, 2021
Grazie a questo articolo fatto benissimo ho capito cosa sono i corpora, grazie
Barbara 09 Maggio, 2023
Completo e comprensibile. Grazie
Lascia un commento