Apertium cat-srd/ Apertium ita-srd: relata finale
Contents
Descritzione de su traballu
Su progetu pro sa partetzipatzione a su programma “Google Summer of Code 2017” cun s’organizatzione Apertium est istadu s’isvilupu de unu Tradutore Automàticu basadu in règulas intre su catalanu e su sardu e sa sighida de su progetu de s’annu coladu, apertium ita-srd. Cust’idea benit dae sa voluntade de chèrrere isvilupare un’àteru trastu de agiudu pro sa limba sarda, sighinde su matessi caminu de su traballu fatu s’annu passadu pro apertium ita-srd. A custu progetu ant partetzipadu Gianfranco Fronteddu, Hèctor Alòs i Font e Francis Tyers e Adrià Martín.
Comente si podet bìdere in su ligàmene de su "Work Plan", b’at àpidu duas fases: una prus longa, chi est durada totu sos meses de làmpadas e de trìulas, dedicada a catalanu-sardu e s’àtera, prus curtza, contivigiada in su mese de austu, ponende·nche sas bases pro unu tradutore sardu-italianu nou.
Su sèberu de chèrrere isvilupare un'àteru tradutore automàticu in sardu, custa borta catàlanu-sardu, est dèvidu a unas cantas resones. Pro prima cosa, s'istadu de perìgulu chi est bivende sa limba sarda e su bisòngiu de nche ammanniare cantas prus fainas possìbiles in sardu, mescamente in sa tecnologia de còdighe abertu e in Limba Sarda Comuna, chi est sa proposta ortogràfica regionale de s'annu 2006 pigada comente riferimentu dae Apertium. Custu faghent a manera chi una faina che a custa siat de agiudu pro s'amparu de su sardu e pro s'istandardizatzione cumpleta de sa limba. Tando, isfrutende·nche su traballu de s'annu coladu, amus pensadu de creare un'àtera croba linguìstica e de megiorare sa chi bi fiat giai, creschende sa cantidade de risorsas in LSC e ponende·nche una base galu prus manna pro s'ammàniu de àteros traballos in su benidore.
Imbetzes, su sèberu de isvilupare unu tradutore cun sa limba catalana est dèvidu in antis totu a su fatu chi su catalanu est, comente a su sardu, una de sas chimbe limbas de minoria in Sardigna (sardu, catalanu-aligheresu, gadduresu, tataresu e tabarchinu), faeddada in sa tzitade de S'Alighera, cun belle 33.000 faeddadores. In prus, su catalanu est una de sas limbas pro sa chi prus Apertium tenet risorsas.
Posca, custa prataforma de còdighe abertu est adata pro limbas romantzas chi s'assimìgiant intre issas comente su catalanu e su sardu, chi rispetant custu rechisitu pro sas influèntzias e s'eredidade linguìstica catalana presente in sa limba sarda, dèvida a s'època de s'ocupatzione Catalana-Aragonesa in Sardigna. In custa manera sa cantidade manna de testos, testimònios e materiales in limba catalana a pitzu de s'istòria sarda ant a èssere a disponimentu fintzas in sardu etotu, gasi comente totu sas publicatziones e sos istùdios de sotziolinguìstica e de polìtica linguìstica de interessu pro sa situatzione de sa limba sarda.
Sos impreos de custu tradutore diant pòdere èssere medas: s'isvilupu de sa Wikipèdia in sardu diat dèvere bènnere fintzas dae sa tradutzione de sos artìculos chi non sunt gasi detalliados in italianu o dant importu a aspetos diferentes. Bortende·nche fintzas dae un'àtera limba che a su catalanu sa cantidade de sas informatziones podet crèschere galu de prus oferende puru un'àtera manera pro espressare sos matessi cuntzetos.
Pro cumpletare su pranu de traballu, bi fiat sa voluntade de fàghere calicuna cosa in su mese de austu fintzas pro srd-ita, semper chi sos obietivos de sa prima fase prus longa s'èsserent cumpridos in sos tempos disinnados.
Prima fase: Apertium cat-srd (29 de Maju - 29 de Trìulas)
Sa prima fase at pertocadu s'isvilupu de su tradutore catalanu-sardu. Su tradutore, pro more de su traballu fatu in antis dae Francis Tyers, fiat in sa setzione "staging" e partiat cun unu tantu de 2645 paràulas in su ditzionàriu bilìngue, una "cobertura fina" (trimmed coverage) de belle su 77% e una pertzentuale de errore WER de su su 34.8%. S'obietivu fiat de lograre su 90% de cobertura e de abbassare su WER a mancu de su 15%.
In càmbiu de s'annu passadu, chi pro isvilupare su tradutore italianu-sardu b'est istadu su bisòngiu de isvilupare in pràtica totu su ditzionàriu morfològicu sardu e megiorare puru aspetos de s'analizadore morfològicu italianu, ocannu si partiat dae duas limbas bene isvilupadas in sa prataforma de Apertium. Nos semus pòdidos cuntzentrare esclusivamente in su trasferimentu dae una limba a s'àtera, alleghende de paràulas, istruturas morfològicas e sintàticas.
Sighende sas datas de su programma GSOC 2017, in su mese de maju e in sa prima chida de làmpadas ("Community Bounding") s'est traballadu meda in s'anàlisi cuntrastiva intre su catalanu e su sardu pro sa creatzione de sos "pending test". Pighende·nche comente riferimentu fintzas sos "pending test" de ita-srd, nche sunt essidas a campu diferèntzias istruturales in formas interrogativas, numerales, possessivos, fòrmulas de òbligu e formas continuadas, su passadu, futuru e cunditzionale, e mescamente sos clìticos.
Ditzionàriu morfològicu sardu
Pro cantu pertocat su ditzionàriu morfològicu sardu, disponìamus giai de unu cun 51.800 paràulas (chi includiat sos lemmas de su Curretore Ortorgràficu Regionale Sardu), isvilupadu durante s'anteriore GSoC. Nche sunt istadas agiuntas 15.500 paràulas in prus: 1300 sustantivos, 800 agetivos, 300 avèrbios, 250 verbos e 12.500 nùmenes pròpios. Si tratat, pro sa majoria, de terminologia iscientìfica e tècnica, e vocabulàriu sotziopolìticu. Cun s'etzetzione de sos nùmenes pròpios, cun sos cales sunt istados sighidos su prus àteros critèrios, sa seletzione de sas paràulas de introdùere est istada fata partinde dae sa Wikipedia Catalana.
Posca, est istadu acontzadu su ditzionàriu, boghende·nche medas allegas chi non fiant normativas e curregende faddinas in s'assignatzione de sos paradigmas (mescamente alleghende de su gènere assignadu a carchi sustantivu).
Ditzionàriu morfològicu catalanu
Fintzas in su ditzionàriu morfològicu catalanu b'at àpidu un'agiunta de nùmenes pròpios, belle 10.000.
Disambiguatzione morfològica in catalanu
In su ditzionàriu catalanu nche sunt istadas iscritas 15 règulas de disambiguatzione morfològica e nde est istada modificada calicun'àtera.
Règulas de seletzione lessicale
Su tradutore disponet de 274 règulas de seletzione lessicale. Si tratat de règulas chi sèberant cale de duas o prus possìbiles tradutziones est sa prus adata in unu determinadu cuntestu. (A mesu a mesu, in su ditzionàriu bilìngue b'at chèntinas de sèberos intre diferentes possìbiles tradutziones de una paràula, ma, a diferèntzia de sas règulas, custu sèberu si faghet in cada cuntestu.)
Règulas de trasferimentu
Su tradutore disponet de 78 règulas de trasferimentu. Si tratat de règulas chi modìficant s'istrutura de sa frase in catalanu pro l'adatare a s'istrutura chi bi bolet in sardu. Pro esempru:
Calidade
Sa valutatzione de sa calidade serbit a proare comente funtzionat su tradutore in sa pràtica. B'at medas maneras de la fàghere e sos testos chi si sèberant dipendent dae cal'est s'impreu chi si nde devet fàghere de su tradutore: in pagas paràulas, serbit a carculare cantas paràulas tocat de cambiare pro pòdere publicare su testu.
"Su Word Error Rate" (WER) est s'indicadore chi inditat sas paràulas chi si devent cambiare pro pòdere publicare su testu. Segundu su "Work plan" s'obietivu fiat de nche arribbare a una pertzentuale prus bassa de su 15%. Su tassu de faddinas in sa tradutzione est 13,9% (nùmeru otentu cun s'indicadore WER partende dae duos testos pigados a casu de 600 paràulas de sa Wikipedia).
Sa cobertura de su tradutore (pertzentuale de paràulas reconnotas) est 94,0% (nùmeru otentu partinde dae unu corpus mannu de sa Wikipedia).
Testu in catalanu (seberadu a s'arriscu/a casu)
L'Acròpoli d'Atenes és l'acròpoli grega més important. L'Acròpoli era, literalment, la "ciutat alta" i estava present a la majoria de ciutats gregues, amb una doble funció: defensiva i com a seu dels principals llocs de culte. L'Acròpoli d'Atenes està situada sobre un turó a uns 165 metres per sobre del nivell de la ciutat. També és coneguda com a Cecròpia en honor del llegendari home serp, Cècrops, rei d'Atenes.
Tradutzione automàtica a su sardu
S'Acròpoli de Atene est s'acròpoli grega prus importante. S'Acròpoli fiat, literalmente, sa "tzitade arta" e fiat presente a sa majoria de tzitades gregas, cun una dòpia funtzione: difensora e comente a sede de sos printzipales logos de cultu. S'Acròpoli de Atene est situada subra unu montigru a unos 165 metros in subra de su livellu de sa tzitade. Puru est connota comente a Cecròpia in onore de su legendàriu òmine colovra, Cècrops, re de Atene.
Segunda fase: apertium srd-ita (austu 2017)
In sa segunda fase de su progetu amus traballadu in previsione de unu tradutore nou srd-ita. Su chi amus pòdidu fàghere est istadu a cumintzare una disàmbiguatzione morfològica manuale de una parte de sos còrpora chi tenimus pro agiudare su tradutore a reconnòschere sa morfologia curreta de cada paràula, mescamente in cuddos testos chi non fiant de su totu a norma.
Amus tratadu duos corpus: unu giornalìsticu e prus dialetale e s'àteru pigadu deretu dae testos literàrios perfetamente a norma LSC. De su primu corpus est istada etichetada un'annanta de 6000 paràulas, de su segundu 11800. Sa falta de tempus (duas chidas pro sa tarea) no at permìtidu de revisionare s'etichetadura. Pro custu no est istadu possìbile a creare unu disambiguadore morfològicu pro su sardu, chi fiat s'intentzione nostra.
Nche sunt istadas agiuntas fintzas 9 règulas de trasferimentu noas e curregida calicuna de sas chi bi fiant giai. In pràtica, como si traduent in manera curreta sos tempos verbales dae su sardu a s'italianu (pretzisu su futuru e su cunditzionale). Est megiorada sa tradutzione de sos possessivos e si tratat carchi casu de enclìticos (in sardu bi podent èssere finas a tres enclìticos cando chi in italianu non bi nde podent àere prus de duos)
Amus fatu carchi cosa fintzas in su ditzionàriu italianu, agiunghende·nche 4 règulas de disambiguatzione morfològica (de sa bator una de importu fiat sa disambiguatzione de "sono" comente a "so" e "sunt"). In prus, amus annantu una lista de istados de su mundu (chi nos at dadu Diegu Corràine) e dae custos nd'amus bogadu a campu fintzas sos gentilìtzios currispondentes, In totu su ditzionàriu bilìngue italianu-sardu tenet 1400 in prus dae su cumintzu de GSoC. S'ispurgadura de sos errores de su ditzionàriu sardu e s'agiunta de sas intradas ant a permìtere in pagu tempus de ammaniare una versione noa de su tradutore italianu-sardu.
Risorsas
- Correctore ortogràficu LSC
- Dizionario universale della lingua di Sardegna Italiano-Sardo-Italiano, Edes, 2006, Cagliari
- Normativa ortografica Limba Sarda Comuna
- Analitzadore hunspell
- Glossàriu italianu-sardu
- Limbanaztiones.com
- Sardo Logudorese-Italiano
- Institut d'Estudis Catalans: Diccionari de la llengua catalana
- Sa Gazeta
Pranos pro su benidore
Su traballu de sa de duas fases de su progetu at a èssere isfrutadu pro sa creatzione de una versione de ita-srd prus pretzisa e agiornada. Agabbare su traballu chi amus cumintzadu serbit pro sa creatzione de unu disambiguadore morfològicu chi at a èssere ùtile pro sa disambiguatzione de sos corpora e non si nd'at a pòdere fàghere a mancu pro isvilupare àteras crobas linguìsticas cun su sardu in su benidore.
Concrusiones
Su progetu est agabbadu cun risultados chi podimus cunsiderare bonos. Lis cheria torrare gràtzias a Apertium pro custa oportunidade, a Francis Tyers e mescamente a Hèctor Alòs i Font pro àere traballadu paris cun megus totu custos meses.
Li torramus gràtzias a Diegu Corràine chi nos at agiudadu meda intreghende·nos materiales medas pro s'ammàniu de custu progetu e cussigiende·nos bene cada bia chi li pregontaìamus calicuna cosa in contu de limba sarda. Gràtzias fintzas a sa Gazeta pro sos testos chi faghent parte de su corpus chi amus creadu pro traballare. Est pretzisu mentovare sa Regione Sardigna chi at postu a disponimentu risorsas lìberas e trastos chi agiudant sa creatzione de trastos noos de còdighe abertu che a custu chi amus in pessu aprontadu.