Sardo e italiano/Rapporto finale

From Apertium
< Sardo e italiano
Revision as of 09:57, 19 August 2016 by Grfro3d (talk | contribs) (Created page with "'''Descrizione''' Il progetto che vado a descrivere ha come obiettivo la creazione di un motore per la Traduzione Automatica dall’italiano al sardo. Nasce da una collaborazi...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

Descrizione Il progetto che vado a descrivere ha come obiettivo la creazione di un motore per la Traduzione Automatica dall’italiano al sardo. Nasce da una collaborazione tra l'Università Autonoma di Barcellona e Prompsit, con il finanziamento da parte di Google per mezzo del programma Google Summer of Code. La creazione di un sistema di traduzione automatica in lingua sarda vede le caratteristiche di questa lingua particolarmente adatte per varie ragioni. In primo luogo, perché si tratta di una lingua in pieno processo di standardizzazione, quindi sia le risorse linguistiche (documenti scritti e opere di riferimento) che tecnologiche (corpus, prodotti editoriali) sono scarse. In secondo luogo, la carenza di testi redatti secondo le norme ortografiche e lessicali proposte dalla nuova forma standard (Limba Sarda Comuna) rende necessario optare per un sistema di traduzione automatica basata su regole. Basandosi su un sistema di regole di trasferimento e dizionari scritti in linguaggio di marcatura, Apertium è una piattaforma che si presta bene alla traduzione tra coppie di lingue appartenenti alla stessa famiglia linguistica (lingue romanze), come il sardo e l’italiano, e questo lavoro porrà le basi affinché, in un immediato futuro, si possa operare nella traduzione di altre coppie linguistiche come sardo-catalano e sardo-spagnolo.


La lingua sarda La lingua sarda è una lingua neo-latina parlata in Sardegna, che con una superficie di 24,100 Km/q è la seconda isola per grandezza del Mar Mediterraneo. Presenta circa un milione di parlanti. Il sardo ha seguito un processo evolutivo che gli ha dato caratteristiche proprie. Tuttavia, le istanze dei vari popoli che si sono susseguite nel corso dei secoli hanno fatto sì che il sardo, ancora oggi, presenti le influenze linguistiche di lingue come il catalano, lo spagnolo e l’italiano. Di recente, è stato riconosciuto dall’Unesco come lingua minoritaria in stato di pericolo. Dato lo stato di grande frammentazione linguistica della lingua, si è deciso di adoperare la proposta ortografica LSC (limba sarda comuna), creata e riconosciuta dalla Regione Autonoma della Sardegna nel 2006. Durante la fase del “Coding Challenge”, svoltasi durante i mesi di marzo e aprile, approfittando del già esistente dizionario italiano, è stato creato lo scheletro del nuovo dizionario sardo, nel quale è stata importata una buona parte del lessico e sono state inserite le informazioni morfologiche riguardanti la formazione di tutte le parole (paradigmi). Per poter procedere con la creazione del nuovo dizionario sardo è stato necessario sfruttare le varie risorse offerte dal web e ai fini della selezione lessicale e dell’analisi contrastiva è stata provvidenziale la creazione di corpora costituiti da testi redatti nella variante LSC, estrapolati da riviste on-line come “limbanatziones”, “Sa Gazeta”, “Sa limba sarda” o dalla stessa Wikipedia in lingua sarda. Di particolare utilità è stato il CROS (CROS - Curretore regionale ortogràficu sardu in lìnea) che, oltre a fungere da goniometro ortografico, ci ha fornito una consistente base dati dal punto di vista lessicale in LSC e un modello valido per la creazione e assegnazione dei paradigmi.


Lingua italiana Per quanto riguarda la lingua italiana, era già presente un dizionario italiano che, ad ogni modo, è stato sottoposto ad un processo di revisione e aggiornamento. Si è dovuto fare un grande lavoro di rifinitura per quanto riguarda le categorie chiuse e la creazione e la nuova assegnazione di alcuni paradigmi, specialmente quelli verbali. Un contributo particolarmente significativo ci è stato dato dalla Prompsit, nello specifico da Gema Ramírez-Sánchez e Marina Loffredo, le quali, trovandosi, per caso, a lavorare contemporaneamente a noi nel traduttore italiano-spagnolo, hanno potuto sviluppare e fornirci, nei mesi di luglio e agosto, un sistema di disambiguazione morfologica per l’italiano. Noi abbiamo contribuito allo sviluppo di quest’ultimo aggiungendo 30 regole di disambiguazione.

Dizionario bilingue Per la compilazione del dizionario bilingue sono stati consultati vari dizionari, tra i quali il dizionario universale italiano-sardo di Antonino Rubattu e il vocabolario Logudorese-italiano di Mario Casu e l’analisi approfondita dei corpora paralleli che ci hanno permesso di capire quale fosse, caso per caso, il maggior numero di occorrenze. L’obbiettivo era il raggiungimento di almeno 20000 lemmi. Attualmente, il dizionario vanta 25484 lemmi, un risultato del quale andiamo fieri.

Regole di selezione lessicale Durante l’ultima fase è stata svolta una selezione lessicale atta al selezionare e preferire dei termini maggiormente in uso, evidenziando 1127 opzioni di traduzione come “non preferibili” nel dizionario bilingue e creando 35 regole di selezione lessicale. Per poter constatare quali di queste fossero maggiormente in uso è stato necessario consultare i vari corpora menzionati e creare delle mini analisi statistiche basate sul numero delle occorrenze relative all’apparizione di ogni lemma.

Regole di trasferimento Per quanto riguarda la creazione delle regole di trasferimento la prima fase è stata la compilazione dei “pending test” nei quali, attraverso un lavoro di analisi contrastiva, sono state messe in evidenza delle differenze strutturali tra italiano e sardo. Tra le tante differenze, quelle che hanno richiesto maggiore attenzione hanno riguardato, per esempio, i verbi del sardo, che al condizionale, nelle forme al passato e nelle forme al futuro dell’indicativo, differiscono da quelli italiani soprattutto per il maggiore impiego degli ausiliari e delle perifrasi (per esempio: “io farò” → “deo apo a fàghere”; “Io farei” → “deo dia fàghere”). Un altro caso interessante è stato quello dei numeri ordinali, che in italiano si esprimono con un unico termine, mentre in sardo con la formula “su de ..” (“terzo” → “su de tres”). In questo frangente sono sorti dei problemi nel tradurre i casi dove, con i numerali ordinali appaiono anche gli aggettivi possessivi, soprattutto in merito alla collocazione nell’ordine sintagmatico della frase (“La mia terza casa.” → “Sa de tres de sas domos meas.”) Il risultato finale è stato la creazione di 89 regole di trasferimento.


Regole di post generazione Nello stadio finale de processo traduttivo, si creano delle regole di post-generazione che permettono di modificare la forma di alcune parole in funzione della parola seguente: per esempio, si mettono gli apostrofi, si sceglie se usare “no” o “non”, “ne” o “nen” etc. Finora, sono state create 87 regole di post generazione.