Sardo e italiano/Rapporto finale

From Apertium
Jump to navigation Jump to search

Descrizione

Il progetto che vado a descrivere ha come obiettivo la creazione di un motore per la Traduzione Automatica dall’italiano al sardo. Nasce da una collaborazione tra l'Università Autonoma di Barcellona e Prompsit, con il finanziamento da parte di Google per mezzo del programma Google Summer of Code.

La creazione di un sistema di traduzione automatica in lingua sarda vede le caratteristiche di questa lingua particolarmente adatte per varie ragioni. In primo luogo, perché si tratta di una lingua in pieno processo di standardizzazione, quindi sia le risorse linguistiche (documenti scritti e opere di riferimento) che tecnologiche (corpus, prodotti editoriali) sono scarse. In secondo luogo, la carenza di testi redatti secondo le norme ortografiche e lessicali proposte dalla nuova forma standard (Limba Sarda Comuna) rende necessario optare per un sistema di traduzione automatica basata su regole. Basandosi su un sistema di regole di trasferimento e dizionari scritti in linguaggio di marcatura, Apertium è una piattaforma che si presta bene alla traduzione tra coppie di lingue appartenenti alla stessa famiglia linguistica (lingue romanze), come il sardo e l’italiano, e questo lavoro porrà le basi affinché, in un immediato futuro, si possa operare nella traduzione di altre coppie linguistiche come sardo-catalano e sardo-spagnolo.

Lingua sarda

La lingua sarda è una lingua neo-latina parlata in Sardegna, che con una superficie di 24,100 Km2 è la seconda isola per grandezza del Mar Mediterraneo. Presenta circa un milione di parlanti. Il sardo ha seguito un processo evolutivo che gli ha dato caratteristiche proprie. Tuttavia, le istanze dei vari popoli che si sono susseguite nel corso dei secoli hanno fatto sì che il sardo, ancora oggi, presenti le influenze linguistiche di lingue come il catalano, lo spagnolo e l’italiano. Di recente, è stato riconosciuto dall’Unesco come lingua minoritaria in stato di pericolo. Dato lo stato di grande frammentazione linguistica della lingua, si è deciso di adoperare la proposta ortografica LSC (limba sarda comuna), creata e riconosciuta dalla Regione Autonoma della Sardegna nel 2006. Durante la fase del “Coding Challenge”, svoltasi durante i mesi di marzo e aprile, approfittando del già esistente dizionario italiano, è stato creato lo scheletro del nuovo dizionario sardo, nel quale è stata importata una buona parte del lessico e sono state inserite le informazioni morfologiche riguardanti la formazione di tutte le parole (paradigmi). Per poter procedere con la creazione del nuovo dizionario sardo è stato necessario sfruttare le varie risorse offerte dal web e ai fini della selezione lessicale e dell’analisi contrastiva è stata provvidenziale la creazione di corpora costituiti da testi redatti nella variante LSC, estrapolati da riviste on-line come “limbanatziones”, “Sa Gazeta”, “Sa limba sarda” o dalla stessa Wikipedia in lingua sarda. Di particolare utilità è stato il CROS (CROS - Curretore regionale ortogràficu sardu in lìnea) che, oltre a fungere da goniometro ortografico, ci ha fornito una consistente base dati dal punto di vista lessicale in LSC e un modello valido per la creazione e assegnazione dei paradigmi.

Lingua italiana

Per quanto riguarda la lingua italiana, era già presente in Apertium un dizionario italiano che, ad ogni modo, è stato sottoposto ad un processo di revisione e aggiornamento. Si è dovuto fare un grande lavoro di rifinitura per quanto riguarda le categorie chiuse e la creazione e la nuova assegnazione di alcuni paradigmi, specialmente quelli verbali.

Un contributo particolarmente significativo ci è stato dato dalla Prompsit, nello specifico da Gema Ramírez-Sánchez e Marina Loffredo, le quali, trovandosi, per caso, a lavorare contemporaneamente a noi nel traduttore italiano-spagnolo, hanno potuto sviluppare e fornirci, nei mesi di luglio e agosto, un sistema di disambiguazione morfologica per l’italiano. Noi abbiamo contribuito allo sviluppo di quest’ultimo aggiungendo 30 regole di disambiguazione.

Dizionario bilingue

Per la compilazione del dizionario bilingue sono stati consultati vari dizionari, tra i quali il dizionario universale italiano-sardo di Antonino Rubattu e il vocabolario Logudorese-italiano di Mario Casu e l’analisi approfondita dei corpora paralleli che ci hanno permesso di capire quale fosse, caso per caso, il maggior numero di occorrenze.

L’obbiettivo era il raggiungimento di almeno 20000 lemmi. Attualmente, il dizionario vanta 25484 lemmi, un risultato del quale andiamo fieri.

Regole di selezione lessicale

Durante l’ultima fase è stata svolta una selezione lessicale atta al selezionare e preferire dei termini maggiormente in uso, evidenziando 1127 opzioni di traduzione come “non preferibili” nel dizionario bilingue e creando 35 regole di selezione lessicale.

Per poter constatare quali di queste fossero maggiormente in uso è stato necessario consultare i vari corpora menzionati e creare delle mini analisi statistiche basate sul numero delle occorrenze relative all’apparizione di ogni lemma.

Regole di trasferimento

Per quanto riguarda la creazione delle regole di trasferimento la prima fase è stata la compilazione dei “pending test” nei quali, attraverso un lavoro di analisi contrastiva, sono state messe in evidenza delle differenze strutturali tra italiano e sardo. Tra le tante differenze, quelle che hanno richiesto maggiore attenzione hanno riguardato, per esempio, i verbi del sardo, che al condizionale, nelle forme al passato e nelle forme al futuro dell’indicativo, differiscono da quelli italiani soprattutto per il maggiore impiego degli ausiliari e delle perifrasi (per esempio: “io farò” → “deo apo a fàghere”; “Io farei” → “deo dia fàghere”). Un altro caso interessante è stato quello dei numeri ordinali, che in italiano si esprimono con un unico termine, mentre in sardo con la formula “su de ..” (“terzo” → “su de tres”). In questo frangente sono sorti dei problemi nel tradurre i casi dove con i numerali ordinali appaiono anche gli aggettivi possessivi, soprattutto in merito alla collocazione nell’ordine sintagmatico della frase (“La mia terza casa.” → “Sa de tres de sas domos meas.”)

Il risultato finale è stato la creazione di 89 regole di trasferimento.

Regole di post generazione

Nello stadio finale de processo traduttivo, si creano delle regole di post-generazione che permettono di modificare la forma di alcune parole in funzione della parola seguente: per esempio, si mettono gli apostrofi, si sceglie se usare “no” o “non”, “ne” o “nen” etc. Finora, sono state create 87 regole di post generazione.

Statistiche

Dizionari

  • apertium-srd-ita.srd-ita.dix: 25.484 lemmi
  • apertium-srd-srd.dix: 51.743 lemmi
  • apertium-ita-ita.dix: 35.099 lemmi

Copertura

  • Trimmed coverage: percentuale di parole che il traduttore automatico riconosce in un testo.
  • Raw coverage: percentuale di parole che l'analizzatore morfologico riconosce in un testo. Questa percentuale è maggiore rispetto a quella del "trimmed coverage" perché se la parola non si trova nel dizionario bilingue, entrerà nella "raw coverage" (se la forma linguistica si trova nel dizionario monolingue), ma non nel "trimmed coverage".
Copertura Sardo-italiano (%) Italiano-sardo (%)
Trimmed coverage (calcolata in apertium-srd-ita) 87,8% 89,3%
Copertura Sardo (%) Italiano (%)
Raw coverage (calcolata in apertium-srd, apertium-ita) 88,6% 91,6%

Testvoc

Testvoc Sardo-italiano Italiano-sardo
Errors 69

I 69 errori evidenziati dal Testvoc riguardano il verbo "stare". Non crediamo che siano errori "reali" data l'impossibilità nel riprodurli.

PER/WER

Testo per la valutazione Sardo-italiano Italiano-sardo
PER/WER 2000 parole 10,71

Piani futuri

Il mio intento sarà quello di continuare a lavorare nella coppia linguistica sardo-italiano, offrendo la mia azione di supporto dal punto di vista linguistico e cercando di ampliare la portata del dizionario bilingue.

Inoltre, è necessario perfezionare le regole di disambiguazione morfologica, oltre che lavorare in forma ancor più approfondita alle regole di selezione lessicale e creare ulteriori regole di trasferimento.

Ampliare il corpus monolingue sardo e creare uno bilingue italiano-sardo darebbe un apporto significativo al miglioramento della qualità del traduttore.

Si sono già poste le basi per la creazione di una nuova coppia linguistica catalano-sardo.

Conclusioni

Sono felicissimo e onorato di aver potuto partecipare a questo progetto così ambizioso. I risvolti positivi saranno enormi e un grande passo è stato fatto per la salvaguardia del sardo e per il suo processo di standardizzazione. Vorrei ringraziare di cuore Mikel Forcada e Adrià Martín per avermi introdotto nella comunità Apertium, Francis Tyers per aver accolto con entusiasmo il progetto e avermi seguito con attenzione durante la prima fase del “coding challenge” (oltre le innumerevoli attività di supporto), l'azienda Prompsit, in particolare Gema Ramírez-Sánchez e Marina Loffredo, per la profiqua collaborazione e il determinato contributo datoci nei mesi di luglio e di agosto, e soprattutto il mio mentore, Hèctor Alòs i Font, che pazientemente mi ha guidato durante tutto il percorso e che mi ha insegnato tanto su Apertium. Senza il suo immenso apporto non saremmo potuti arrivare agli encomiabili risultati raggiunti.

Ho imparato tanto da questa esperienza e spero di poter continuare a far parte della splendida comunità Apertium.