Amestar un par de llingües nuevu

From Apertium
Revision as of 10:35, 12 September 2008 by Senio (talk | contribs)
Jump to navigation Jump to search

Amestar un par de llingües nuevu (esbozu)

Esti tutorial va desplicar el mou d'entamar un par nuevu de llingües nuevu pa la ferramienta de torna automática Apertium.

Nun se precisa conocimientu dalu de llingüística o sistemes de torna acullá de ser capaz d'estremar nomes de verbos (y preposiciones, etc.)

Entamu

Apertium ye, como posiblemente pescanciaras, un sistema de torna automática. Bono, nun del too, ye una plataforma de torna. Ufre un motor y unes ferramientes tales que te permitirán ellaborar los tos propios sistemes de torna. Lo único que fai falta ye escribir datos. L'aniciu d'una nueva llingua consiste básicamente en tres diccionarios y delles regles (de reorganización de pallabres y otres cuestiones gramaticales).

Pa una introducción más detallada de como funciona too, hai dellos papelos interesantes na páxina del proyeutu apertium.sourceforge.net.

Precisarás

  • lttoolbox (>= 3.0.0)
  • libxml útiles (xmllint etc.)
  • apertium (>= 3.0.0)
  • un editor de testu (o un editor XML especializáu si lo prefieres)

Esti documentu nun va desplicar como instalar estos paquetes, pa más información ve por favor la seición de documentación del sitiu web d'Apertium.

¿En que consiste un par de llingües?

Apertium ye un sistema de torna de lo que se conoz como tranferencia superficial. Ello ye qu'emplega básicamente los diccionarios y les regles de transferencia superficial. Na práutica, la transferencia superficial estrémase de la tranferencia en profundidá en que nun fai un analís sintáuticu completu

les regles son operaciones típiques en grupos d'unidaes léxiques en vez d'operaciones n'árboles sintáuticos. Nun nivel básicu hai tres diccionarios principales
  1. Diccionariu morfolóxicu de la llingua xx: recueye les regles d'inflexón de les pallabres de la llingua xx. Nel nuesu exemplu llamarémoslu: apertium-sh-en.sh.dix
  2. Diccionariu morfolóxicu de la llingua yy: recueye les regles d'inflexón de les pallabres de la llingua yy. Nel nuesu exemplu llamarémoslu: apertium-sh-en.en.dix
  3. Diccionariu billingüe: caltién les correspondencies ente les pallabres y símbolos de les dos llingües. Nel nuesu exemplu llamarémoslu: apertium-sh-en.sh-en.dix

Nun par de llingües, dambes puen ser orixen y fin de les tornes en términos relativos.

Hai amás dos arquivos pa la transferencia de regles. Son eses regles les encargaes de decidir como les pallabres se reorganicen nos enunciaos, p.e. chat noir -> cat black -> black cat. Tamién toma les decisiones de xéneru, númberu, etc. Les regles puen usase tanto p'añadir como pa eliminar elementos léxicos, como se desplicará más tarde. Estos arquivos son:

  • Regles de transferencia de la llingua xx a la llingua yy: esti archivu contién les regles de como la llingua xx tien de camudar a la llingua yy. Nel nuesu exemplu: apertium-sh-en.trules-sh-en.xml
  • Regles de transferencia de la llingua yy a la llingua xx: esti archivu contién les regles de como la llingua yy tien de camudar a la llingua xenx. Nel nuesu exemplu: apertium-sh-en.trules-en-sh.xml

Dellos pares de llingües que s'ufierten caltienen otros arquivos, pero nun mos ocuparemos d'ellos equí. Estos arquivos son los únicos que se precisen pa xenerar un sistema funcional.

Par de llingües

Como s'alvirtiera nos nomes d'arquivu, esti tutorial emplega l'exemplu del par de llingües serbo-croata ya inglés pa desplicar como crear un sistema básicu. Esti nun ye un par ideal por mor de que'l sistema funciona meyor entre pares de llingües más averaes ente elles. Nun ye problema polo cenciello de los exemplos qu'equí s'amuesen.

Una breve nota so los términos

Dellos términos han comprendese primero de siguir.

El primeru ye «lema». Un lema ye'l mou de citar una pallabra. Ye daqué asina como'l raigañu d'una pallabra. Por exemplu el lema de la pallabra gatos ye «gatu». Nos nomes n'asturianu esti sedrá normalmente la forma en masculín singular de la pallabra en cuestión. Pa los verbos, el lema sedría l'infinitivu. P.e. el lema de «canciemos» sedría «canciar».

El segundu ye «símbolu». Nel contestu d'Apertium, símbolu refierse a la etiqueta gramatical. La pallabra gatos ye un nome plural, poro caltendrá el símbolu de nome y el símbolu de plural. Nos módulos d'entrada y salida d'Apertium éstes apaecen ente paréntesis angulaos (<,>), como sigue:

  • <n>; pa nome.
  • <pl>; pa plural.

Otros exemplos de símbolos son <sg>; singular, <p1> primer persona, <pri> presente d'indicativu, etc. Cuando apaecen ente paréntesis angulaos, los símbolos van venceyaos a etiquetes. Pue albidrase qu'en munchos de los pares de llingües disponibles anguaño les definiciones de símbolos son acrónimos o contraiciones de pallabres en catalán. Por exemplu, vbhaver — de vb (verbu) and haver («tener» en catalán). Los símbolos tán definíos nes etiquetes <sdef> y emplegaos en etiquetes <s>

El tercer términu ye «paradigma». Nel contestu d'Apertium el paradigma refierse al mou d'inflexón d'un grupu concretu de pallabres. Nel diccionariu morfolóxicu, los lemes (ver enriba) vencéyense a paradigmes que nos permiten desplicar como un lema dáu inflexiona ensin tener d'escribir toles terminaciones.

Un exemplu de la utilidá d'esto ye que si quixéramos amestar los dos axetivos «happy» y «lazy», en vez d'añedir dos paquetes de la mesma cosa:

  • happy, happ (y, ier, iest)
  • lazy, laz (y, ier, iest)

guardaríamos namás ún, y diríamos entós «lazy inflexona como happy», y ensin dubia «shy inflexona como happy», «naughty inflexona como happy», «friendly inflexona como happy», etc. Nesti exemplu, happy sedría'l paradigma, el modelu de referencia pol qu'otros inflexonen. La descripción precisa de como se define esto desplicarémosla llueu. Los paradigmes defínense n'etiquetes <pardef>, y enllázase a ellos n'etiquetes <par>.