User:Catbru

From Apertium
Revision as of 20:04, 8 April 2011 by Jimregan (talk | contribs) (Remove the GSoC proposals category - this was not submitted, and the deadline has passed.)
Jump to navigation Jump to search

PROPOSTA D'ADOPCIÓ DE DUES NOVES PARELLES DE LLENGÜES PER AL GSOC: ESPERANTO > CATALÀ I CATALÀ > ARAGONÈS

Roger Sanjaume i Calvet

catbru@gmail.com

Informació de contacte addicional

IRC: catbru a #apertium

carrer Lluís Llibre n1 1r 3a Cardedeu, BARCELONA 08440

telèfon (+34)628333755

Per què estàs interessat en la traducció automàtica?

Com a estudiant de lingüística, veig en la traducció automàtica una de les perspectives de futur més interessants de la meva disciplina, tan des d'un punt de vista acadèmic com laboral. Els motors de traducció juguen un paper important el l'avenç de la intel·ligència artificial així com ajuden a mirar- se les llengües des d'una altra perspectiva. És conegut que la lingüística és una de les ciències més fonamentades en la interdisciplinarietat, projectes com aquest em permeten de barrejar els meus interessos acadèmics amb la meva afició a la informàtica per desenvolupar una eina útil pels usuaris de les llengües implicades. Això és, justament, el que més m'interessa de la traducció automàtica, poder donar una sortida pràctica, tangible a la lingüística de manera que tingui repercussió en facilitar la comunicació i l'ús de les llengües pròpies dels usuaris.


Per què estàs interessat en el projecte d'Apertium?

En primer lloc perquè és programari lliure. Des de fa anys que sóc usuari de programari lliure a diferents nivells i crec fermament que és la millor manera de contribuir al coneixement. A més a més, és un traductor que he seguit com a usuari per la seva filosofia, que em sembla no només fonamentada en el programari lliure sinó també en donar sortida a llengües que altres projectes ni contemplen, com la meva primera llengua, el català, o l'occità, l'aragonès, l'asturià, l'esperanto, entre d'altres. Podem dir que m'agrada el projecte pel seu valor afegit. A la vegada, Apertium m'ofereix unes eines de desenvolupament que no requereixen uns coneixements tècnics avançats permetent-me, així, aprofitar la meva formació com a lingüista.

En quina de les idees per desenvolupar estàs interessat? Què és el que vols fer?

Títol

Màquina de traducció d'Apertium: eo -> ca Màquina de traducció d'Apertium: ca -> an

Proposta

La meva proposta, és l'adopció de dos nous parells de llengües, en primer lloc esperanto > català i en segon lloc català > aragonès. És possible desenvolupar aquestes dues parelles amb una sola convocatòria de GSoC per diferents motius i amb l'ajuda del mentor. La parella eo > ca és la més complicada de les dues. L'existència d'altres parelles ja desenvolupades d'esperanto és el que em permetrà guanyar temps. Per exemple, puc aprofitar, revisant-ho, els diccionaris (ca > eo), el desambiguador morfològic (eo > en) i el postgenerador (p. ex. en > ca). Ara bé, en regles de transferència, si bé podré agafar idees d'altres parelles no hi ha cap altre traductor d'esperanto a llengua romànica de manera que hauré de resoldre el canvi d'ordre del SN, les diferències en els temps verbals (subjuntius i discurs indirecte), coordinació subjecte-verb i subjecte-atribut, estructura de les negacions, generació de l'article indefinit, etc. És feina però es pot fer deixant temps encara per la segona parella: català > aragonès. El català i l'aragonès son llengües germanes, Apertium ha estat pensat per desenvolupar parentius propers i aquest n'és un cas ideal. S'està desenvolupament el traductor es > an, cosa que de nou em facilita la feina. Puc generar un primer diccionari creuant (crossdics) les parelles es > an i es > ca. Actualment el traductor es > an té unes 23.000 paraules i estan definits uns 500 paradigmes morfològics en el diccionari monolingüe aragonès. Es pot desenvolupar una primera versió d'aquest traductor en tres setmanes. L'inconvenient principal serà la falta de normativa en alguns aspectes de la gramàtica de l'aragonès, és possible que en algun cas (per exemple en els SV) hagi d'escollir una o altre convenció. Em coordinaré amb els desenvolupadors del traductor es > an (Juan Pablo Martínez Cortés) per seguir les mateixes convencions que ells han adoptat.

Què aporta i perquè Google i Apertium haurien d'esponsoritzar-lo?

En primer lloc, és clar, suma dos nous traductors a la llista del projecte. En el cas de la parella eo > ca seria la primera vegada que es fa un traductor automàtic de l'esperanto a una llengua romànica, així, podria assentar bases per desenvolupar futurs traductors (sobretot eo > es i eo > fr). Si bé de ben segur que no donaria traduccions definitives facilitaria força la feina a l'hora de fer-les. L'esperanto és una llengua amb pocs parlants que produeix una quantitat de textos relativa enormement alta. Un exemple n'és l'ús a Internet, que, segons un seguiment realitzat durant els anys 2006 i 2007, superava fins i tot a l'èuscar en nombre de llocs web.(1) En disciplines com la interlingüística l'esperanto aporta un punt de vista notable pel món acadèmic o en la historiografia, en què, com diu l'historiador Xavier Margais (2) "l'esperanto ha estat marginat [dels estudis històrics als Països Catalans] simplement perquè els erudits que haurien pogut fer aquesta tasca, essent incapaços de desxifrar el contingut del material escrit en esperanto, han preferit ignorar la cultura que ha generat l'esperantisme català i han obviat el moviment" El traductor també serviria per apropar l'esperanto a la comunitat catalanoparlant, que tradicionalment hi ha estat força lligada.(3) La proposta eo > ca és prou complexa com per dedicar-hi tot un GSoC, però, després de discutir-ho a la llista, sembla més adient crear una primera versió del traductor més simple, però relativament fàcil de millorar, i crear una primera versió d’un segon traductor. Per fer-ho abordable, aquest segon traductor ha de ser netament més simple que el primer. La parella ca > an seria la la primera vegada que es fes un traductor automàtic entre català i aragonès. Amb una feina lleugera es podria aconseguir un traductor prou fiable. Serviria, per exemple, per desenvolupar ràpidament la Viquipèdia en aragonès en base la catalana. Milloraria el desenvolupament actual, que es basa en la castellana, que sovint és una traducció de l'anglesa. Així, podria contribuir a l'augment de l'estatus de la llengua.

(1) Vegeu (en esperanto) http://jxvasxe.free.fr/iloj/abako.htm

(2) Citat a la p. 9 de Història de l’esperanto als Països Catalans, Poblet i Alòs 2010

(3) Vegeu Quants eren els esperantistes catalans? Alòs i Font, Hèctor a Kataluna Esperantisto núm. 355-356 (121-122) juny-desembre 2010

Calendarització i entregues

Per tal de desenvolupar aquesta proposta necessitaré els tres mesos amb una dedicació de vuit hores diàries (sense comptar caps de setmana) i distribuint-me la feina de la següent manera:

- juny

- primera setmana: Traductor eo > ca): Generació de la llista d'outstanding tests, generació de corpus de text per a proves d'ús (a partir de tesktaro.com i Viquipèdia). Tria de millors opcions per a paraules amb dobles traduccions al diccionari bilingüe (21.000 entrades).

- segona setmana: Continuació de la tria de paraules. Creació de regles bàsiques per a un primer prototipus de traductor.

- tercera setmana: Tractament del SN; canvi d'odre

- quarta setmana: Tractament SV; coordinació subjecte-verb

- juliol

- primera setmana: Coordinació subjecte-atribut

- segona setmana: Subjuntius i discurs indirecte

- tercera setmana: Estructura de les negacions

- quarta setmana: Generació de l'article indefinit

- agost

- primera setmana: Avaluació, correcció d'errors i documentació

- segona setmana: Traductor an > ca: Generació i depuració del diccionari

- tercera setmana: Generació de les regles bàsiques de transformació

- quarta setmana: Avaluació, correcció d'errors i documentació

- Entregues

- Entrega 1 (final de juny): Prototip de traductor eo > ca, capaç d'ordenar correctament el SN i coherentment amb el verb.

- Entrega 2 (final primera setmana d'agost): Traductor eo > ca finalitzat, capaç d'assolir els objectius plantejats i documentat.

- Entrega 3 (final d'agost): Traductor bàsic ca > an d'acord amb els objectius plantejats i documentat.

Motivacions i currículum

Vaig començar a estudiar esperanto l'any 2006 i des del 2007 sóc membre de la Joventut Catalana d'Esperanto de la qual actualment sóc, també, membre de la junta. L'any 2008 vaig participar en un curs d'aragonès de la Casa de Aragón de Barcelona i actualment estic estudiant Llengua de Signes Catalana a l'escola Llesig, també de Barcelona. Estudio Grau de Lingüística (itinerari de llengua catalana) a la Universitat de Barcelona.

Què faré aquest aquest estiu

Apart d'aquest projecte no faré cap altra feina remunerada aquest estiu. M'he programat l'estiu en base les vuit hores de feina que hi hauré de dedicar entre setmana. Com a molt, si porto bé el projecte aniré de colònies, a principi d'agost, amb l'esplai el poble, del qual en sóc monitor.