Caterina Mauri
Alma Mater Studiorum – Università di Bologna
“Ma come parla?!” Quante volte ci siamo trovati a notare, e magari criticare, il modo in cui il nostro interlocutore parla? Cogliamo le differenze, le novità, le somiglianze, il tutto in tempo reale. Perché la lingua parlata, a differenza della lingua scritta, passa e va. Così ci troviamo a chiedere “Come? Puoi ripetere quello che hai detto?”, sperando in una replica dell’espressione che ha catturato la nostra attenzione. La lingua parlata è, in altre parole, qualcosa che usiamo, ascoltiamo, in certe occasioni programmiamo, ma su cui non possiamo indugiare. Ogni atto linguistico, cioè ogni azione comunicativa, è qualcosa che viviamo ma che non possediamo, a differenza del libro, del foglio o della lavagna. Come fare allora a osservare, e ancora più analizzare, come parliamo?
Nel corso del 2016 è nato presso l’Università di Bologna un progetto finalizzato a costruire una nuova risorsa elettronica per lo studio dell’italiano parlato, che dopo varie proposte di denominazione (ricordiamo qui l’iniziale CIP, per Corpus di Italiano Parlato, dal retrogusto ornitologico) è approdata al nome di Corpus KIParla, che racchiude un rimando sia alla trascrizione fonetica di corpus ([‘korpus]) sia a quello che è l’aspetto caratterizzante della risorsa, cioè la possibilità di accedere a informazioni sulle caratteristiche socio-demografiche di chi effettivamente parla. Grazie alla collaborazione tra l’Università di Torino e l’Università di Bologna, il corpus KIParla è oggi una risorsa a libero accesso (www.kiparla.it, Mauri et al 2019, Ballarè et al. 2022).
Il KIParla si distingue da altre risorse attualmente disponibili per lo studio dell’italiano parlato per alcune proprietà: oltre alla già menzionata possibilità di avere accesso a una serie di metadati relativi alle caratteristiche socio-demografiche dei parlanti (fascia di età, genere, provenienza geografica, titolo di studio, occupazione), è possibile anche avere informazioni sul tipo di interazione in cui essi sono coinvolti (conversazione spontanea, intervista semi-strutturata, lezione, ricevimento studenti, esame). Come sappiamo, infatti, il modo in cui parliamo è fortemente influenzato dal nostro retroterra geografico, dal percorso scolastico che abbiamo seguito, dal contesto lavorativo in cui siamo soliti muoverci quotidianamente, ma anche dalla formalità della situazione in cui ci troviamo a interagire. L’accesso a questo tipo di informazioni permette quindi di comprendere l’uso di particolari espressioni in relazione al contesto sociolinguistico del loro impiego e, in molti casi, permette di seguirne lo sviluppo e la diffusione attraverso gruppi sociali e varietà diverse di lingua (pensiamo al noto italiano popolare).
Ci sono altri due aspetti che differenziano il KIParla dalle altre risorse esistenti. Il primo riguarda la modalità di consultazione dei dati, che sono disponibili sia in formato testuale che in formato audio, permettendo di allineare il primo al secondo: per esempio, se trovassi un’occorrenza di vero nelle trascrizioni testuali e non ne comprendessi a pieno il significato – è una marca di accordo (Vero!) o un segnale di sorpresa (equivalente a Davvero?!)? – potrei facilmente cliccare sul link all’audio, che mi permetterebbe di ascoltare l’interazione direttamente nel punto rilevante a partire dai tre secondi precedenti, risolvendo il mio dubbio grazie alla prosodia.
Il secondo aspetto importante riguarda la struttura interna del corpus. Il KIParla è infatti una risorsa progettata e costruita fin dall’inizio in maniera modulare e incrementale, che prevede la possibilità di ampliamenti progressivi nel tempo. I moduli vanno intesi come (sotto)corpora di parlato che possono concentrarsi su diverse varietà di lingua e/o diversi punti di inchiesta, ma che condividono (almeno) un core set di metadati e una procedura di raccolta e trattamento condivisa, il che è in sé garanzia di un’alta comparabilità. Grazie a questa struttura, i moduli possono essere consultati tanto separatamente quanto congiuntamente.
Ad oggi, il corpus KIParla è costituito da due (sotto)corpora (v. Fig. 1), il KIP e il ParlaTO, che contengono interazioni registrate nelle città di Bologna e di Torino. I due centri urbani presentano una situazione sociolinguistica simile, poiché sono entrambi meta di mobilità interna, e presentano quindi una compresenza di varietà regionali e dialetti di diverse regioni italiane. Il KIP offre la possibilità di indagare fenomeni di variazione diafasica (ovvero legata al contesto comunicativo), specialmente di registro, dell’italiano nel parlato di soggetti colti; il ParlaTO, invece, offre in primo luogo l’opportunità di esplorare aspetti di diversificazione diastratica (ovvero legata a diversi strati sociali) dell’italiano parlato. Entrambi i corpora, poi, includono produzioni di parlanti con provenienza geografica diversa; consentono perciò di osservare almeno alcune manifestazioni della variazione diatopica dell’italiano. Con il KIParla, nel complesso, si ha quindi la possibilità di indagare aspetti di diversificazione geografica (KIP e ParlaTO), sociale (ParlaTO) e situazionale (KIP) dell’italiano parlato.
Per esempio, se in (1) troviamo l’uso di solo più tipico della varietà regionale piemontese, insieme a espressioni proprie della conversazione informale (come t’ho beccato o vai), in (2) troviamo balotta, espressione tipica del parlato bolognese, insieme all’uso dell’articolo prima del nome proprio (la marianna).
Nel KIParla sono tuttavia rappresentate anche le varietà centromeridionali, come si può osservare in (3): pur trattandosi di una conversazione spontanea registrata a Torino, osserviamo che la parlante TO091 (di origine umbra) fa uso dell’infinito apocopato (impazzi’, porta’) e della perifrasi progressiva stare a + infinito (stai a fa’ l’attrice).
Vediamo qualche dato tecnico per gli addetti ai lavori. La raccolta dati è stata effettuata tra il 2016 e il 2020 da ricercatori e studenti (appositamente formati) delle Università di Bologna e di Torino. Tutte le interazioni sono state registrate a microfono palese e gli informanti coinvolti hanno firmato un consenso informato (conforme alle norme europee di protezione dati – v G.D.P.R.). Le registrazioni sono state quindi trascritte tramite il software ELAN (Sloetjes and Wittenburg 2008), sia in maniera ortografica che utilizzando una versione semplificata del sistema Jefferson (Jefferson 2004), frequentemente usato nell’analisi della conversazione. Infine, prima della pubblicazione sia le trascrizioni che i file audio sono stati anonimizzati, lasciando come unico dato sensibile la voce stessa del parlante. Una volta ultimata la raccolta e la trascrizione dei dati, è stato elaborato uno script in python che permette di consultare i dati sulla piattaforma NoSketch Engine (Rychlý 2007), consentendo all’utente di utilizzare i metadati (relativi ai parlanti e alle conversazioni) sia come filtri di ricerca sia come informazioni relative alle singole registrazioni. Per una rassegna delle tante funzionalità di ricerca, si vedano le Informazioni utili per effettuare una ricerca.
La consultazione congiunta dei due moduli KIP e ParlaTO permette di accedere a un totale di circa 110 ore di registrazioni, che coinvolgono 340 parlanti, per un totale di 1.125.996 parole.
Tuttavia, le dimensioni del KIParla sono destinate a crescere velocemente, perché grazie alla collaborazione degli studenti e delle studentesse dell’Università di Bologna che hanno preso (e stanno prendendo) parte al tirocinio curricolare KIParla, sono in fase di allestimento due nuovi moduli. Il primo, denominato KIPasti, è costituito da registrazioni di parlato spontaneo effettuate durante il corso di pranzi e cene in diverse regioni italiane (un po’ parla quando mangi e un po’ parla come mangi!): la situazione comunicativa coinvolge sempre interlocutori con un alto grado di confidenza tra loro all’interno di conversazioni libere. Il secondo modulo, per cui attualmente si sta terminando la raccolta dati, è denominato ParlaBO e mira ad avere una struttura analoga a quella del ParlaTO, mantenendo come punto di inchiesta la città metropolitana di Bologna.
Sono inoltre in corso collaborazioni con colleghe e colleghi di altri atenei, quindi prevediamo la prossima pubblicazione di ulteriori moduli con dati raccolti in diverse città italiane.
Stay tuned!
Per approfondire
Ballaré, Silvia & Eugenio Goria & Caterina Mauri. 2022. Italiano parlato e variazione linguistica. Teoria e prassi nella costruzione del corpus KIParla. Bologna: Pàtron.
Jefferson, Gail. 2004. Glossary of transcript symbols with an introduction. In Lerner, G. H. (a cura di), Conversation Analysis: studies from the first generation. Amsterdam: John Benjamins. 13-31.
Mauri, Caterina, Silvia Ballarè, Eugenio Goria, Massimo Cerruti & Francesco Suriano. 2019. KIParla corpus: a new resource for spoken Italian. In Bernardi, Raffaella, Roberto Navigli & Giovanni Semeraro (a cura di), Proceedings of the 6th Italian Conference on Computational Linguistics CLiC-it.
Rychlý, Pavel. 2007. Manatee/Bonito – A Modular Corpus Manager. In 1st Workshop on Recent Ad-vances in Slavonic Natural Language Processing. Brno: Masaryk University. 65-70.
Sloetjes, Han & Peter Wittenburg. 2008. Annotation by category – ELAN and ISO DCR. In Proceedings of the 6th International Conference on Language Resources and Evaluation (LREC 2008).
0 Commenti
Lascia un commento