Silvia Bernardini e Federico Garcea
Alma Mater Studiorum – Università di Bologna
La copertina della rivista Internazionale del 24 luglio scorso era dedicata al tema de ‘il valore delle lingue‘. Il punto di partenza dell’articolo, semplice e provocatorio, era: “I programmi di traduzione funzionano sempre meglio e presto potrebbe diventare inutile imparare una lingua straniera”. Nonostante l’articolo offra molte solide ragioni per cui vale ‘ancora’ la pena imparare le lingue straniere, a prescindere dai risultati raggiunti nel campo della traduzione automatica, il tema è ovviamente sul tavolo e chiunque si interessi di lingue straniere si troverà prima o poi ad affrontarlo.
La traduzione automatica nasce negli anni ‘50, e si evolve da sistemi basati su regole ad altri basati sull’approccio statistico, che fioriscono insieme ai metodi per il trattamento dei big data e del calcolo distribuito, fino ad arrivare alle reti neurali utilizzate correntemente. I risultati sono talmente sorprendenti da portare Microsoft e Google ad affermare di aver raggiunto, almeno in una direzione linguistica e in uno scenario specifico (traduzione dal cinese all’inglese di articoli giornalistici), la ‘parità macchina-umano‘. Questi sistemi sono basati su una rete neurale ricorrente, anche nota come LSTM (Long short-term memory), che è in grado di imparare a comporre e produrre traduzioni in base a esempi, e con il vantaggio di gestire un contesto della frase molto più lungo rispetto ai sistemi statistici. Il risultato è che producono solitamente traduzioni fluide, scorrevoli, con un alto livello di comprensibilità, con pochi errori grammaticali.
Rimangono tuttavia alcuni problemi irrisolti che ci separano in realtà dalla cosiddetta human parity: mancanza del contesto del discorso (ogni frase è tradotta in isolamento dal resto del documento), ignoranza del contesto situazionale e culturale, e errori dovuti alla eterogeneità dei dati con cui la macchina impara. Non conoscendo il significato delle parole, la macchina può attribuire una frase subordinata al soggetto sbagliato, tradurre un’unità di misura (ad es. 10 Km -> 10 miglia), tradurre il nome o titolo di una personalità con un’altra, causando errori catastrofici per il senso del discorso.
La traduzione automatica è inoltre ancora molto sensibile alla quantità di dati richiesta per addestrare o adattare un sistema: per ottenere risultati utilizzabili sono necessari alcuni milioni di frasi già tradotte per l’’addestramento’ (ovvero per costruire un sistema di traduzione generico da zero) e alcune decine di migliaia per l’’adattamento’ (ovvero per migliorare la resa adattandola a contesti specifici, ad es. manuali tecnici, comunicazioni aziendali, ecc.). Acquisire dati e manipolarli è un lavoro ingente: gli algoritmi hanno bisogno di coppie di frasi che sono l’una la traduzione (il più letterale possibile) dell’altra. Perifrasi, analogie, riscritture nella lingua di destinazione sono inutili se non dannose per gli algoritmi di addestramento. Per un’azienda che intenda investire nella traduzione automatica creando o adattando sistemi propri, è dunque essenziale investire nella raccolta e preparazione dei dati.
Al netto degli errori e della qualità variabile a seconda delle lingue e della tipologia di testo e argomento, dopo circa settant’anni di ricerca abbiamo la possibilità di tradurre quasi istantaneamente e a bassissimo costo qualunque documento in una delle sessanta lingue più diffuse al mondo. Il cambiamento è epocale, non c’è dubbio. Alcuni esperimenti dimostrano che un sistema di traduzione automatica che ‘conosce’ coppie di romanzi in originale e in traduzione inglese <-> catalano, oltre a romanzi originali in catalano, riesce a produrre una buona base di partenza per la revisione (o post-editing) da parte di traduttori professionisti di narrativa tradotta dall’inglese in catalano, riducendo il tempo e l’impegno cognitivo rispetto alla traduzione da zero. Certo i traduttori lamentano di essere troppo vincolati e preferiscono la modalità tradizionale, ma una cosa è certa: non è più tempo di incredulità e sarcasmo. Anche la traduzione della letteratura, pur con i necessari distinguo, non sembra più una chimera.
Se la traduzione automatica di testi letterari è per il momento solo un’affascinante prova di fattibilità, ci sono altri campi in cui questa tecnologia si sta rivelando già molto utile. Tutti abbiamo riso di fronte agli epic fails che girano in rete (le 15.000 uova ordinate dai cuochi norvegesi durante le olimpiadi invernali in Corea del sud, per uno zero di troppo aggiunto, pare, da Google traduttore). Ma provando ad acquistare un accessorio per cellulari, o altro gadget tecnologico made in China, avremo probabilmente apprezzato le traduzioni, non perfette ma comprensibili, dei prodotti in vendita su eBay. Con oltre 1 miliardo e 300 milioni di annunci, la traduzione umana non è un’opzione percorribile in modo sistematico per questo sito di aste online. L’alternativa non è quindi una traduzione perfetta rispetto ad una imperfetta, ma una traduzione imperfetta rispetto a nessuna traduzione. Secondo uno studio del 2018, grazie all’introduzione della traduzione automatica dall’inglese allo spagnolo per i titoli degli annunci, le esportazioni dagli Stati Uniti verso l’America Latina sarebbero aumentate di oltre il 10%.
Ma la traduzione automatica, e le tecnologie linguistiche in generale, possono anche contribuire al progresso umano e al miglioramento della nostra vita. Nell’ultimo decennio, ricercatori della Microsoft hanno usato il Translator Hub in collaborazione con università e comunità che corrono il rischio di vedere scomparire la propria lingua, per creare sistemi di traduzione per le lingue hmong, nepalese, maori e yucatec. In questi casi, studenti, anziani della comunità linguistica e studiosi lavorano insieme alla creazione di un sistema e alla stesura e preparazione dei dati, in un’esperienza fondamentalmente umana, seppur mediata dall’intelligenza artificiale. Negli scenari di crisi, poi, la condivisione rapida e efficace delle informazioni in lingue diverse può salvare vite. Durante la crisi dei rifugiati Rohingya, la traduzione di informazioni igienico-sanitarie in bengali ha avuto un ruolo essenziale per ridurre il rischio di colera. Le traduzioni, effettuate dai volontari dell’associazione Translators without Borders sono poi confluite in una memoria di traduzione che permetterà di automatizzare parzialmente il processo, velocizzandolo.
Il tema centrale in questi casi è proprio la (in)disponibilità di dati linguistici, i cui effetti possono purtroppo anche essere perversi. Secondo dati discussi l’anno scorso in un workshop del progetto europeo INTERACT, nel 2019 quasi 200 milioni di persone sono state vittime di crisi umanitarie in 39 paesi del mondo. In questi paesi si parlano oltre mille lingue diverse, ma solo per una ventina di queste esistono dati adeguati a sviluppare tecnologie linguistiche. Le motivazioni sono (socio)linguistiche (ad esempio l’esistenza o meno di sistemi di scrittura codificati o l’attenzione ai diritti linguistici), ma soprattutto tecnologiche ed economiche. Le dimensioni del mercato digitale fanno sì che lo sviluppo di tecnologie linguistiche sia un buon affare per certe lingue, molto meno per altre. Poiché i sistemi di traduzione automatica si nutrono di dati e a loro volta immettono dati in circolo, il loro uso e sviluppo rischiano di acuire il divario fra lingue ‘maggiori’ e lingue ‘minori’. Uno studio recente ha valutato le traduzioni di Google traduttore utilizzando 20 frammenti di testo in inglese, la cui traduzione è stata sottoposta a parlanti nativi delle 107 lingue supportate. Se le traduzioni in afrikaans e in tedesco mantenevano il senso in oltre l’80% dei casi, la percentuale scendeva a zero per il bengali, il creolo haitiano e il tagico. Per il 66,4% delle lingue il senso veniva trasmesso solo nel 50% dei casi o meno. Se si considera che il bengali è una delle dieci lingue più parlate al mondo, mentre l’afrikaans non è neanche fra le prime 100, è chiaro che l’importanza di una lingua nel mondo delle tecnologie linguistiche non va di pari passo con il numero dei suoi parlanti.
Al di là delle considerazioni di lungo termine, esistono anche rischi pratici legati all’adozione acritica della traduzione automatica, particolarmente nella sua incarnazione più recente e performante, quella neurale. Come abbiamo visto sopra, i sistemi che usano questa tecnologia possono produrre testi estremamente ‘credibili’ ma scollegati dal testo di partenza (aggiungendo o rimuovendo parole, modificando legami logici). Questa problematica è conosciuta in inglese come fluent inadequacy: il testo tradotto è (ingannevolmente) scorrevole ma il senso è travisato. Un esempio discusso da van Brussel et al. (2018) è il seguente:
La traduzione olandese è a prima vista corretta, ma il senso cambia perché would like to è stato omesso. Errori di questo tipo richiedono tempo e attenzione anche ai revisori professionisti e possono facilmente trarre in inganno gli utenti inesperti.
L’articolo di Internazionale da cui siamo partiti sostiene che imparare le lingue sia ancora un buon investimento: le lingue rendono le persone più empatiche e aperte, permettono di fare esperienze più profonde del mondo e del prossimo e hanno effetti positivi sulle capacità cognitive, in particolare degli anziani. Il fatto stesso che una rivista non specialistica tratti il tema in questi termini ci dà un’idea dell’impatto che i sistemi di traduzione automatica stanno avendo sulla società. L’intelligenza artificiale applicata alla comunicazione tra lingue diverse può contribuire, sta già contribuendo, a migliorare le nostre vite. Perché questo potenziale si realizzi è necessario comprenderne a fondo i meccanismi e le implicazioni. Per questo è essenziale il contributo di linguisti-computazionali, traduttori e revisori che capiscano i meccanismi e li governino, che siano in grado di nutrire di dati i sistemi e di controllarne il prodotto. Nell’insieme, crediamo che la posizione dei linguisti nei confronti della traduzione automatica debba essere oggi di vigile fiducia.
Per approfondire
Brusasco, Paola. 2018. La traduzione automatica. Tradurre. Pratiche, Teorie, Strumenti 14.
Forcada, Mikel. 2017. Making sense of machine translation. Translation spaces 6(2). 291-309.
Soffritti, Marcello & Christine Heiss. 2018. DeepL Traduttore e didattica della traduzione dall’italiano in tedesco. Intralinea. Special Issue: Translation And Interpreting for Language Learners (TAIL).
Starnoni, Elena. 2019. Traduttori umani e traduzione automatica neurale. Il Chiasmo, Treccani, 10 luglio 2019.
Way, Andy. 2019. Machine translation: Where are we at today? In Erik Angelone, Maureen Ehrensberger-Dow & Gary Massey (eds.), The Bloomsbury companion to language industry studies, 311-332. New York: Bloomsbury.
0 Commenti
Lascia un commento