Sardo e italiano/Rapporto finale

Nel link che segue si apre una pagina nella quale è possibile accedere allo scheletro dal quale è costituito il traduttore prodotto nel progetto e alla cronologia relativa ai vari "commit" che si sono susseguiti da parte di Gianfranco Fronteddu e dai suoi mentori, Hèctor Alòs i Font e Francis Tyers, durante il periodo di svolgimento del progetto, seguendo la tempistica e le scadenze del programma Google Summer of Code. https://apertium.projectjj.com/gsoc2016/gfro3d.html

Descrizione[edit]

Il progetto che vado a descrivere ha come obiettivo la creazione di un motore per la Traduzione Automatica dall’italiano al sardo. Nasce da una collaborazione tra l'Università Autonoma di Barcellona e Prompsit, con il finanziamento da parte di Google per mezzo del programma Google Summer of Code.

La creazione di un sistema di traduzione automatica in lingua sarda vede le caratteristiche di questa lingua particolarmente adatte per varie ragioni. In primo luogo, perché si tratta di una lingua in pieno processo di standardizzazione, quindi sia le risorse linguistiche (documenti scritti e opere di riferimento) che tecnologiche (corpus, prodotti editoriali) sono scarse. In secondo luogo, la carenza di testi redatti secondo le norme ortografiche e lessicali proposte dalla nuova forma standard (Limba Sarda Comuna) rende necessario optare per un sistema di traduzione automatica basata su regole. Basata su un sistema di regole di trasferimento e dizionari scritti in linguaggio di marcatura, Apertium è una piattaforma che si presta bene alla traduzione tra coppie di lingue appartenenti alla stessa famiglia linguistica (lingue romanze), come il sardo e l’italiano, e questo lavoro porrà le basi affinché, in un immediato futuro, si possa operare nella traduzione di altre coppie linguistiche come sardo-catalano e sardo-spagnolo.

Lingua sarda[edit]

La lingua sarda è una lingua neo-latina parlata in Sardegna, che con una superficie di 24.100 Km² è la seconda isola per grandezza del Mar Mediterraneo. Presenta circa un milione di parlanti. Il sardo ha seguito un processo evolutivo che gli ha dato caratteristiche proprie. Tuttavia, le istanze dei vari popoli che si sono susseguite nel corso dei secoli hanno fatto sì che il sardo, ancora oggi, presenti le influenze di lingue come il catalano, lo spagnolo e l’italiano. Di recente, è stato riconosciuto dall’Unesco come lingua minoritaria in pericolo. Dato lo stato di grande frammentazione linguistica della lingua, si è deciso di adoperare la proposta ortografica LSC (limba sarda comuna), creata e riconosciuta dalla Regione Autonoma della Sardegna nel 2006. Durante la fase del “Coding Challenge”, svoltasi durante i mesi di marzo e aprile, approfittando del già esistente dizionario italiano, è stato creato lo scheletro del nuovo dizionario sardo, nel quale è stata importata una buona parte del lessico e sono state inserite le informazioni morfologiche riguardanti la formazione di tutte le parole (paradigmi). Per poter procedere con la creazione del nuovo dizionario sardo è stato necessario sfruttare le varie risorse offerte dal web e ai fini della selezione lessicale e dell’analisi contrastiva è stata provvidenziale la creazione di corpora costituiti da testi redatti nella variante LSC, estrapolati da riviste on-line come “limbanatziones”, “Sa Gazeta”, “Sa limba sarda” o dalla stessa Wikipedia in lingua sarda. Di particolare utilità è stato il CROS (CROS - Curretore regionale ortogràficu sardu in lìnea) che, oltre a fungere da goniometro ortografico, ci ha fornito una consistente base dati dal punto di vista lessicale in LSC e un modello valido per la creazione e assegnazione dei paradigmi.

Risorse[edit]

Lingua italiana[edit]

Per quanto riguarda la lingua italiana, era già presente in Apertium un dizionario italiano che, ad ogni modo, è stato sottoposto ad un processo di revisione e aggiornamento. Si è dovuto fare un grande lavoro di rifinitura per quanto riguarda le categorie chiuse e la creazione e la nuova assegnazione di alcuni paradigmi, specialmente quelli verbali.

Un contributo particolarmente significativo ci è stato dato dalla Prompsit, nello specifico da Gema Ramírez-Sánchez e Marina Loffredo, le quali, trovandosi, per caso, a lavorare contemporaneamente a noi nel traduttore italiano-spagnolo, hanno potuto sviluppare e fornirci, nei mesi di luglio e agosto, un sistema di disambiguazione morfologica per l’italiano. Noi abbiamo contribuito allo sviluppo di quest’ultimo aggiungendo 30 regole di disambiguazione.

Dizionario bilingue[edit]

Per la compilazione del dizionario bilingue sono stati consultati vari dizionari, tra i quali il dizionario universale italiano-sardo di Antonino Rubattu e il vocabolario Logudorese-italiano di Mario Casu e l’analisi approfondita dei corpora paralleli che ci hanno permesso di capire quale fosse, caso per caso, il maggior numero di occorrenze.

L’obbiettivo era il raggiungimento di almeno 20.000 lemmi. Attualmente, il dizionario vanta 25.484 lemmi, un risultato del quale andiamo fieri.

Regole di selezione lessicale[edit]

Durante l’ultima fase è stata svolta una selezione lessicale atta al selezionare e preferire dei termini maggiormente in uso, evidenziando 1127 opzioni di traduzione come “non preferibili” nel dizionario bilingue e creando 35 regole di selezione lessicale.

Per poter constatare quali di queste fossero maggiormente in uso è stato necessario consultare i vari corpora menzionati e creare delle mini analisi statistiche basate sul numero delle occorrenze relative all’apparizione di ogni lemma.

Regole di trasferimento[edit]

Per quanto riguarda la creazione delle regole di trasferimento la prima fase è stata la compilazione dei “pending test” nei quali, attraverso un lavoro di analisi contrastiva, sono state messe in evidenza delle differenze strutturali tra italiano e sardo. Tra le tante differenze, quelle che hanno richiesto maggiore attenzione hanno riguardato, per esempio, i verbi del sardo, che al condizionale, nelle forme al passato e nelle forme al futuro dell’indicativo, differiscono da quelli italiani soprattutto per il maggiore impiego degli ausiliari e delle perifrasi (per esempio: “io farò” → “deo apo a fàghere”; “Io farei” → “deo dia fàghere”). Un altro caso interessante è stato quello dei numeri ordinali, che in italiano si esprimono con un unico termine, mentre in sardo con la formula “su de ..” (“terzo” → “su de tres”). In questo frangente sono sorti dei problemi nel tradurre i casi dove con i numerali ordinali appaiono anche gli aggettivi possessivi, soprattutto in merito alla collocazione nell’ordine sintagmatico della frase (“La mia terza casa.” → “Sa de tres de sas domos meas.”)

Il risultato finale è stato la creazione di 89 regole di trasferimento.

Regole di post generazione[edit]

Nello stadio finale de processo traduttivo, si creano delle regole di post-generazione che permettono di modificare la forma di alcune parole in funzione della parola seguente: per esempio, si mettono gli apostrofi, si sceglie se usare “no” o “non”, “ne” o “nen” etc. Finora, sono state create 87 regole di post generazione.

Statistiche[edit]

Dizionari[edit]

apertium-srd-ita.srd-ita.dix: 25.484 lemmi
apertium-srd-srd.dix: 51.743 lemmi
apertium-ita-ita.dix: 35.099 lemmi

Copertura[edit]

Trimmed coverage: percentuale di parole che il traduttore automatico riconosce in un testo.
Raw coverage: percentuale di parole che l'analizzatore morfologico riconosce in un testo. Questa percentuale è maggiore rispetto a quella del "trimmed coverage" perché se la parola non si trova nel dizionario bilingue, entrerà nella "raw coverage" (se la forma linguistica si trova nel dizionario monolingue), ma non nel "trimmed coverage".

Copertura	Sardo-italiano (%)	Italiano-sardo (%)
`Trimmed coverage (calcolata in apertium-srd-ita)`	87,8%	89,3%
Copertura	Sardo (%)	Italiano (%)
`Raw coverage (calcolata in apertium-srd, apertium-ita)`	88,6%	91,6%

Testvoc[edit]

Il Testvoc è un procedimento che assicura che i dizionari monolingue e il dizionario bilingue non presentino disguidi, in modo che, per esempio, un lemma che si trova nel dizionario italiano e del quale la traduzione è presente nel dizionario bilingue italiano-sardo abbia una voce nel dizionario sardo, dove si definisce la flessione. Il Testvoc genera milioni di parole nella Source Language (tutti i lemmi con tutte le sue flessioni possibili) e assicura che tutte abbiano un'equivalente nella Target Language. Il risultato migliore sarebbe che non ci sia nessun errore nel Testvoc.

Testvoc
`Errors`	69

I 69 errori evidenziati dal Testvoc riguardano il verbo "stare". Non crediamo che siano errori "reali" data l'impossibilità nel riprodurli.

Indicatori di qualità[edit]

La valutazione serve a constatare la qualità del funzionamento della coppia linguistica nella pratica. Esistono vari modi per svolgerla e la scelta dei testi campione dipende dall'intento per il quale è stato creato il traduttore nella suddetta coppia linguistica: in pratica, calcola quante parole debbano essere cambiate prima di ritenere il testo pronto per la pubblicazione. Più basso sarà il numero, migliore sarà il risultato. Pertanto, gli indicatori di qualità sono:

Word Error Rate (WER): Indica quante parole devono essere cambiate nel testo tradotto prima di renderlo pubblicabile.
Position-Independent Word Error rate (PER): come il precedente, senza però tenere conto del cambio dell'ordine delle parole.

Testo per la valutazione	`PER`	`WER`
2033 parole	10,71%	10,79%

La qualità è stata valutata analizzando il risultato della traduzione di due testi estrapolati da Wikipedia, di circa 1000 parole ciascuno. In questo link si riporta il risultato dell'ultimo test http://wiki.apertium.org/wiki/Sardo_e_italiano/Valutatzione. Si è preferito scegliere i testi di Wikipedia perché tipicamente il traduttore automatico Apertium viene utilizzato come strumento di supporto per la creazione di nuovi articoli (https://www.mediawiki.org/wiki/Content_translation). Per garantire l'attendibilità dei vari test, i testi campione sono stati scelti in forma del tutta aleatoria dalla Vetrina di Wikipedia (https://it.wikipedia.org/wiki/Wikipedia:Vetrina) nel giorno riservato alla prova e quello precedente previsto dal "workplan".

Piani futuri[edit]

Il mio intento sarà quello di continuare a lavorare nella coppia linguistica sardo-italiano, offrendo la mia azione di supporto dal punto di vista linguistico e cercando di ampliare la portata del dizionario bilingue.

Inoltre, è necessario perfezionare le regole di disambiguazione morfologica, oltre che lavorare in forma ancor più approfondita alle regole di selezione lessicale e creare ulteriori regole di trasferimento.

Ampliare il corpus monolingue sardo e creare uno bilingue italiano-sardo darebbe un apporto significativo al miglioramento della qualità del traduttore.

Si sono già poste le basi per la creazione di una nuova coppia linguistica catalano-sardo.

Conclusioni[edit]

Sono felicissimo e onorato di aver potuto partecipare a questo progetto così ambizioso. I risvolti positivi saranno enormi e un grande passo è stato fatto per la salvaguardia del sardo e per il suo processo di standardizzazione. Vorrei ringraziare di cuore Mikel Forcada e Adrià Martín per avermi introdotto nella comunità Apertium, Francis Tyers per aver accolto con entusiasmo il progetto e avermi seguito con attenzione durante la prima fase del “coding challenge” (oltre le innumerevoli attività di supporto), l'azienda Prompsit, in particolare Gema Ramírez-Sánchez e Marina Loffredo, per la profiqua collaborazione e il determinato contributo datoci nei mesi di luglio e di agosto, e soprattutto il mio mentore, Hèctor Alòs i Font, che pazientemente mi ha guidato durante tutto il percorso e che mi ha insegnato tanto su Apertium. Senza il suo immenso apporto non saremmo potuti arrivare agli encomiabili risultati raggiunti.

Ho imparato tanto da questa esperienza e spero di poter continuare a far parte della splendida comunità Apertium.

Sardo e italiano/Rapporto finale

Contents

Commit[edit]

Descrizione[edit]

Lingua sarda[edit]

Risorse[edit]

Lingua italiana[edit]

Dizionario bilingue[edit]

Regole di selezione lessicale[edit]

Regole di trasferimento[edit]

Regole di post generazione[edit]

Statistiche[edit]

Dizionari[edit]

Copertura[edit]

Testvoc[edit]

Indicatori di qualità[edit]

Piani futuri[edit]

Conclusioni[edit]

Navigation menu

Personal tools

Namespaces

Variants

Views

More

Search

Navigation

Tools