Chiara Celata
Università di Urbino Carlo Bo
Tutti noi possiamo vedere o percepire la presenza di un oggetto anche quando questo è perfettamente immobile; ma possiamo udirlo solo se si muove. Quando parliamo, gli organi fonatori mettono in movimento le particelle d’aria circostanti, le quali, a loro volta, eccitano i timpani delle nostre orecchie, dandoci la sensazione dell’udito. I suoni delle lingue, dunque, come tutti gli altri suoni, sono essenzialmente movimento. E come tutte le cose in movimento, sfuggono alle più semplici rappresentazioni.
I suoni linguistici, però, a differenza di tutti gli altri suoni, sono strettamente collegati a una grammatica, cioè a un insieme di proprietà linguistiche che non hanno niente a che fare con il mondo fisico. Dunque, i suoni linguistici sono qualcosa di molto ibrido: per certi versi assomigliano a elementi del mondo naturale, alla pari di un tuono scatenato da un temporale, e allo stesso tempo danno forma a quei prodotti della mente e della cultura umana che sono le lingue. In linguistica, quando si vuole studiare più direttamente l’aspetto “naturale” (e quindi ci si interessa a come i suoni vengano programmati, articolati, discriminati uditivamente etc.), si adotta una prospettiva di indagine fonetica; quando, invece, si privilegia il versante “culturale” (e ci si chiede, quindi, come i suoni vengano organizzati in sistemi grammaticali diversi da lingua a lingua, come cambino nel tempo, o perché vengano acquisiti in modo simile dai bambini di tutto il mondo), si privilegia una prospettiva di indagine fonologica.
La figura sottostante riproduce il segnale spettrografico di una voce femminile che dice “Ciao, Volpe!”:
La spettrografia è una tecnica molto usata dagli studiosi del parlato per visualizzare in modo semplice le caratteristiche fisiche della produzione vocale. Si tratta di un grafico in cui sull’ascissa c’è il tempo, mentre sull’ordinata ci sono le frequenze di vibrazione dell’onda sonora; inoltre, i diversi gradi di annerimento all’interno del grafico rappresentano le diverse intensità che il segnale può avere in corrispondenza delle diverse frequenze. La linea rossa sovraimposta al grafico, invece, rappresenta in termini spaziali l’escursione tonale della voce durante la produzione dell’enunciato (in poche parole: l’intonazione ascendente o discendente associata alle diverse sillabe).
Già osservando questa semplice immagine ci rendiamo conto di un primo problema: il segnale è continuo, vale a dire che non vi sono interruzioni che fisicamente individuino il confine tra gli elementi linguistici (parole, sillabe, vocali e consonanti). Ai diversi suoni corrispondono diversi valori di frequenza (ordinata) e intensità (annerimento), ma… dove finisce uno e comincia l’altro? L’unico istante temporale interamente bianco nel grafico (dove anche la linea rossa si interrompe) non corrisponde, come si potrebbe pensare, all’intervallo tra “Ciao” e “Volpe”, bensì alla consonante [p]; anzi, per essere precisi, solo ad una sua sottoparte.
E neppure la virgola, che nello scritto utilizziamo proprio per separare due parti dell’enunciato, è rappresentata da discontinuità nel segnale. Piuttosto, in questo esempio, la sua manifestazione sonora è da ricercarsi nell’andamento intonativo complessivo, e cioè nei picchi e negli avvallamenti della linea rossa. I quali, però, non hanno valore assoluto, ma solo in relazione gli uni con gli altri. Dunque: il segnale è continuo, e i valori fisici associati ad esso non hanno valore assoluto bensì relativo, cioè vanno visti nel contesto di ciò che c’è prima e ciò che c’è dopo. Un bel problema, dal punto di vista dell’analisi empirica, non c’è che dire. E come spesso accade, i modi che si scelgono per risolvere i problemi empirici influenzano pesantemente la teoria che ne consegue.
Siamo portati a pensare che i suoni del parlato siano fondamentalmente qualcosa che udiamo. Ciò è in parte vero (e il piccolo saggio di analisi acustica appena compiuto va proprio in quella direzione). In realtà, i suoni del parlato sono molto di più: essi sono anche qualcosa che facciamo.
Quando iniziamo a parlare, il nostro cervello invia comandi motori ad un numero incredibilmente alto di muscoli, che si contraggono e si rilassano in modo perfettamente coordinato nell’arco di poche manciate di millisecondi. Dai polmoni alla laringe, dallo sfintere ariepiglottidale al velo palatino, dalla mandibola alla lingua e alle labbra, tutte queste strutture (e le loro componenti) sono coinvolte in una vera e propria danza degli articolatori (così è stata chiamata), che possiamo divertirci ad osservare nei pochi minuti di questo video (una ‘danza’ ancor più evocativa, ma stavolta verso il dramma dell’incomunicabilità e del dubbio esistenziale che opprime l’uomo contemporaneo, è quella della bocca femminile su sfondo nero a cui Samuel Beckett, con trovata scenica geniale, affidò il monologo Not I; a questo link è possibile vedere la versione del 1973 con Billie Whitelaw).
Mentre parliamo, monitoriamo ed ‘aggiustiamo’ continuamente le nostre azioni sulla base del feedback uditivo, tattile, visivo e cinestetico che riceviamo della nostra produzione vocale (oltre che, ovviamente, sulla base degli effetti prodotti dal nostro discorso sugli interlocutori). Il feedback sensoriale durante il parlato è, dunque, multimodale, e l’uso prolungato della mascherina negli ultimi tempi ce lo ha fatto capire molto bene.
I suoni linguistici, ad esempio, vengono sistematicamente fraintesi quando l’informazione uditiva e l’informazione visiva confliggono. Nel 1976 due studiosi britannici, Harry McGurk e John MacDonald, pubblicano su Nature uno studio in cui si dimostra che uno stimolo uditivo composto dalla ripetizione della sillaba [ba], se proposto ad alcuni ascoltatori contemporaneamente al video di una persona che articola ripetutamente [ga], non dà luogo alla percezione né di [ba], né di [ga], bensì di [da]. Di qualcosa, cioè, che non è né nell’acustica del suono, né nell’informazione visiva disponibile, bensì rappresenta una sorta di compromesso tra le due. Questo effetto è stato poi replicato innumerevoli volte e dimostra con forza che alla base della comprensione del parlato non sta la semplice decodifica di un’onda sonora, ma un processo di integrazione multisensoriale.
In questo processo, le informazioni linguistiche non fonetiche (cioè, quelle semantiche, morfosintattiche, lessicali) sono di primaria importanza. Se a degli italiani facciamo sentire un suono acusticamente intermedio tra [g] e [k], con frequenza più che casuale essi lo classificheranno come [g] quando esso è seguito da “atto”, ma come [k] quando è seguito da “ane”. Dato che lo stimolo è lo stesso in entrambi i casi, ciò significa che i parlanti, in presenza di ambiguità, tendono a percepire i suoni come porzioni di parole realmente esistenti. Le informazioni linguistiche (in questo caso, sapere semplicemente che esistono due parole come cane e gatto, mentre non esistono né *gane né *catto) guidano l’ascoltatore a formulare predizioni su ciò che è stato detto.
D’altro canto, le caratteristiche delle parole e delle frasi influenzano anche il modo in cui produciamo i suoni che le compongono, non solo quello in cui li percepiamo.
Ad esempio, siamo abituati a considerare omofone due parole che, avendo significati diversi, sono però identiche dal punto di vista sonoro (come dai, voce del verbo ‘dare’ e dai, preposizione articolata). Gli studiosi del parlato sanno che, però, in molti casi l’omofonia è solo apparente.
Un caso famoso che si cita sempre è lo studio condotto dall’americana Susanne Gahl su 90000 occorrenze di omofoni inglesi, del tipo di time ‘tempo’ e thyme ‘timo’. I membri di ogni coppia si distinguono per frequenza d’uso: time è decisamente più frequente di thyme, nel parlato quotidiano degli anglofoni. Quello che Gahl trova è che, a parità di velocità d’eloquio, posizione relativa delle pause, predicibilità contestuale, categoria sintattica e regolarità ortografica, le parole frequenti, come time, sono più brevi di quasi il 20% rispetto alle corrispondenti omofone rare, come thyme.
Oggi sappiamo bene che la frequenza d’uso influisce pesantemente sul modo in cui pronunciamo le parole. In quelle che usiamo più spesso, i bersagli articolatori sono ‘ridotti’, le differenze tra suoni susseguenti sono mitigate. È un po’ come se, pronunciando parole o frasi ad alta frequenza, applicassimo una funzione di smoothing (cioè, una perequazione) con lo scopo di ‘smussare gli angoli’ della variazione interna al segnale. Uno degli effetti di ciò è proprio l’accorciamento relativo delle parole a più alta frequenza. Un altro è che le parole più rare (come impregnante) tendono ad essere più lunghe di quelle più frequenti (come tinta). Un terzo è che le parole più rare tendono ad iniziare con suoni più informativi, cioè con una successione di suoni che è presente in un numero inferiore di parole: potremmo dire che esse sono meno ‘confondibili’ dal punto di vista sonoro.
Tutte queste tendenze stanno a indicare che c’è un forte legame tra il modo in cui le lingue organizzano i suoni del parlato, da un lato, e i significati, le funzioni e gli usi delle parole e delle frasi, dall’altro. In altri termini, c’è un legame tra la componente sonora e la grammatica dei parlanti. Un caso fra i più eclatanti? E’ stato dimostrato che -s alla fine delle parole inglesi si pronuncia in modi sistematicamente diversi a seconda che si tratti della -s della terza persona singolare dei verbi, quella del plurale dei nomi, quella del genitivo sassone, oppure una semplice -s senza valore grammaticale. Queste differenze sono percepibili da parte dell’orecchio umano, anche se magari lì per lì non ce ne accorgiamo, e concorrono a formare l’identità sonora delle parole e delle frasi.
Insomma, quando si studia il “volto fonico” delle parole, bisogna sempre tenere presente che gli aspetti fisici (il movimento da cui siamo partiti) e gli aspetti concettuali e grammaticali del linguaggio, così come l’uso concreto che ne fanno i parlanti, sono interconnessi: in modo sottile e complicato, ma lo sono. E probabilmente è per questo che gli specialisti di sviluppo infantile riscontrano correlazioni a lungo termine tra l’abilità di discriminare semplici vocali a 6 mesi di vita e le abilità linguistiche generali (grammatica, vocabolario, letto-scrittura) a 5 anni. Correlazioni che risultano essere anche più forti di quelle, ben conosciute, tra status socio-economico dei genitori e abilità linguistico-comunicative dei bambini in età scolare. Come dire, le abilità di percezione e produzione del parlato sostengono e favoriscono lo sviluppo di abilità più generali durante l’acquisizione della lingua materna.
Sta ai linguisti maneggiare con cura, e rigore, questo magma denso ed eterogeneo che è la lingua.
Per approfondire
Albano Leoni, Federico. 2009. Dei suoni e dei sensi. Il volto fonico delle parole. Bologna: il Mulino.
Byrd, Dani & Toben H. Mintz. 2010. Discovering speech, words, and mind. Wiley-Blackwell.
Vietti, Alessandro. 2017. Quali e quanti suoni per le lingue? In Francesca Masini & Nicola Grandi (a cura di), Tutto ciò che hai sempre voluto sapere sul linguaggio e sulle lingue, 141-144. Cesena/Bologna: Caissa Italia.
0 Commenti
Lascia un commento