Basque and Spanish/informe 2008
Contents
Apertium eu-es: descripción y cuestiones pendientes
Por qué
El objetivo de apertium-eu-es no es tanto el de generar textos que puedan después ser posteditados sino más bien la de permitir que personas que no conocen el euskara pero sí el español puedan hacerse una idea del significado del texto (es decir, vale más para la asimilación que para la diseminación).
La versión que se está desarrollando está pensada para traducir noticias del diario Berria y el vocabulario se está completando para adaptarlo a este dominio.
Los diccionarios de apertium-eu-es provienen de los diccionarios libres de Matxin.
Situación actual (julio 2008)
- cobertura: 89,2 %
- lemas en el diccionario monolingüe euskera: 6.187 (más 5.150 lemas con paradigma asignado pero que están comentados, al no tener ninguna correspondencia en el diccionario bilingüe)
- correspondencias en el diccionario bilingüe: 12.259 (muchas de las cuales no están en el monolingüe euskera, por lo que no tienen utilidad por ahora, aunque sí tienen categoría asignada; además de estas 12.000, el bilingüe contiene 7.000 entradas más que no tienen categoría asignada ni están en el bilingüe; se han dejado porque muchas de ellas pueden ser útiles en el futuro y aprovechables con un poco de trabajo informático).
- reglas de transferencia:
- t1x: 174 reglas
- t2x: 49 reglas
- t3x: 20 reglas
Fuentes para nuevas entradas
Se puede ir añadiendo al bilingüe las entradas comentadas del monolingüe euskera. También se pueden añadir al monolingüe euskera las entradas que están en el bilingüe. Una fuente de lemas que puede aprovecharse con un poco de trabajo de procesamiento es el archivo eu_changes_morph.xml de Matxin. Contiene entradas como estas:
<e><p><l>Europako_Kontseilu[IZE][IZB]</l><r>kontseilu[IZE][ARR]</r></p></e> <e><p><l>Amnistiaren_Aldeko_Batzordeak[IZE][IZB]</l><r>batzorde[IZE][ARR]+[NUMP]</r></p></e> <e><p><l>txoko_ekologiko[IZE][ARR]</l><r>ekologiko[ADJ][IZO]</r></p></e>
Nuestro diccionario bilingüe contiene estas entradas:
<e> <p> <l>Europako_Kontseilua</l> <r>consejo_de_europa</r> </p> <par n="NC_IZE_LIB"/> </e> <e> <p> <l>txoko_ekologiko</l> <r>nicho_ecológico</r> </p> <par n="NC_IZE_ARR"/> </e>
(no hay entrada en el bilingüe para "Amnistiaren_Aldeko_Batzordeak")
Y el diccionario monolingüe contiene éstas:
<e> <p> <l>kontseilu</l> <r>kontseilu<s n="n"/></r> </p> <par n="I_40"/> </e> <e> <p> <l>ekologiko</l> <r>ekologiko<s n="adj"/><s n="izo"/></r> </p> <par n="ADJK_40"/> </e>
Así, con la información del eu_changes_morph (que 'txoko_ekologiko' es nombre común ([IZE][ARR] y que se declina como 'ekologiko' , que es adjetivo 'izenondoa' ([ADJ][IZO]), con un poco de trabajo informático y lingüístico se podría crear la entrada 'txoko ekologiko' en el monolingüe euskera. Además habría que añadir manualmente la traducción en el diccionario bilingüe.
Diccionarios morfológicos
1. Cambios respecto a Matxin
Se han convertido los diccionarios de Matxin y se han hecho varios cambios. Los principales son:
- las aglutinaciones o "declinaciones" se tratan como formas léxicas separadas, (etxea en Matxin era nombre absolutivo singular, en Apertium es nombre + determinante singular):
gizonentzat : gizon.n + a.det.pl + tzat.post
El absolutivo no se marca
gizonak : gizon.n + a.det.pl
Los determinantes y las posposiciones reciben un lema mnemónico, uno por caso:
gizonei : gizon.n + a.det.pl + i.post Mirenekin : Miren.NP + kin.post katuarentzat : katu.n + a.det.sg + tzat.post
Las posposiciones que puede modificar un sintagma nominal se marcan explícitamente como ko
etxeetako: etxe.n + a.det.pl + ko.post.ko Mikelekin : Mikel.NP + kin.post Mikelekiko : Mikel.NP + kin.post.ko
- se han sacado de los paradigmas los morfemas de derivación, se han dejado sólo los de flexión / aglutinación. Hacían aumentar enormemente el volumen de los diccionarios, ya que se aplicaban en todas las palabras, tanto si la forma derivada existía en el lenguaje real como si no. Algunos morfemas, son, p. ej. -pean (ahopean, kontrolpean, isilpean, lelopean); -arazi (gozarazi, lotsarazi); -txo (aitatxo, apurtxo). Algunas de las posibles palabras derivadas se han introducido en el diccionario como palabras completas. Hay que estudiar si sería conveniente volver a introducir algunos de los morfemas más productivos, como arazi.
2. Elección de categorías: dudas
Possessives
A problem appears with "possessives" like 'nire', 'gure', 'zuen', 'haien', 'bere'. Should they be treated as preadjectives ('izenlagun') or as genitive constructs:
nire: ni.pron.sg + ren.post.ko haien : hura.pron.pl + ren.post.ko
Decisión final: son analizadas con sus morfemas de genitivo para ofrecer un análisis morfológico fiel a la realidad.
Undefined determiners (or quantifiers)
There are some words in basque that could be considered as adjectives or as quantifiers (asko, gehiegi, nahiko, etc.).
Like determiners and unlike adjectives, they can signal the end of a SN. This is a reason why they shouldn't be tagged as adjectives.
They can also be followed by another deteminer ('etxe askoa').
Matxin dictionaries tag them as undefined determiners. We decided to tag them this way, with a distinction for the ones that come usually before the noun, like the adjectives 'izenlagun' (for example, 'nahiko').
Posposiciones aglutinadas y separadas, adverbios, conjunciones
Las posposiciones pegadas a la palabra precedente són analizadas como <post> (etxean - etxe<n>+an<post>) y son traducidas al castellano como preposiciones. Existen otras posposiciones que se escriben como palabras independientes, pero cuya función és igual a la de las posposiciones anteriores, y que se traducen al castellano también como preposiciones. Para estas, se ha escogido la etiqueta <spost> (separate postposition). Estas son, a día de hoy: antzera, menpe, begira, arteraino, aldera, buruz, bitartez, zehar, bila, gorabehera, izan ezik, esker, esku, barik, gabe, inguru, gainero, gain, ustez, iduriko, kanpo, alde, kontra, aurka, aburuz, esanetan, arabera, gero, arte, salbu. Su paradigma incluye las posposiciones pertinentes (kontrako, etc.).
[--85.56.130.83 19:23, 17 July 2008 (UTC): estas posposiciones tienen un problema: que siguen a otras postposiciones. Esto puede afectar en un futuro a restricciones reglas de tipo "forbid". En cualquier caso, las clasificaría de acuerdo con la postposición que les precede. Por ejemplo, las que siguen a z.post, las que siguen a ko.post.ko, etc.]
--Mginesti 14:37, 24 July 2008 (UTC) Estas posposiciones no crean ningún problema en el tagger porque tienen categoría (y etiqueta) diferente: unas son <post> y las otras <spost>. El tagger distingue bastante bien cuándo se trata de una spost. Sobre lo de clasificarlas, es una buena idea a estudiar, hay que ver si se hace en el tagger o bien si se añaden estas posposiciones en los paradigmas de posposición pertinentes del diccionario monolingüe.
Por otro lado tenemos lo que hemos etiquetado como conjunciones adverbiales (cnjadv) y los adverbios de genitivo (<adv><gen>). Sus características y función se confunden con las de las posposiciones, por lo que no tenemos muy claro qué hacer con ellas.
Las cnjadv son por ahora: harik eta, arren, eta gero, ez ezik, ezean, ezik, nahiz, ere; -nean, -nez-, -lakoan, -lako.
[--Mlforcada 19:26, 17 July 2008 (UTC): ¡cuidado! Algunas de estas van por delante "harik eta", "nahiz eta"]
Sobre los adverbios de genitivo
Basque has constructions to express positions relative to an object which are based around what we could call positional nouns. For instance the positional noun 'aurre' (front part) is used in 'etxearen aurrean' (in front of the house) or 'etxearen aurretik' (starting at the front of the house). Here is a non-exhaustive list of these positional nouns:
- aurre (front)
- atze (back)
- ondo (side, back)
- albo (side)
- azpi (below)
- gain (on)
- alde (side)
- inguru (around)
- barru (in)
- pare (front of)
These nouns can take the cases -tik, -ra, -rantz/-runtz, -raino, an and ko.
When these nouns appear with one of these postpositions, they have the function of an adverb (aurrean -> in front of) and the preceding noun appears in genitive (etxearen aurrean).
En el diccionario se han añadido las palabras resultantes de combinar estos nombres posicionales con estas posposiciones, exceto con -ko: en este caso, se analizan como nombre + ko (p. ej: atzeko -> atze<n>+ko<post>), y se les ha asignado las etiquetas <adv><gen> (excepto 'aldera' que se ha puesto como <spost> únicamente).
[--Mlforcada 19:26, 17 July 2008 (UTC): no me gusta adv.gen; creo que en euskara se pueden clasificar bastante bien las categorías de las palabras según a qué palabras siguen y a qué palabras preceden. Por ejemplo, "aurreko" debe seguir a un genitivo o absolutivo y estar seguido de componentes de SN, mientras que "aurrean" puede ir seguido de cualquier cosa (categoría similar al adverbio). No parece lógico que tengan la misma categoría .]
--Mginesti 14:35, 24 July 2008 (UTC) De hecho, lo había explicado mal: están como adv.gen todas las combinaciones con estos nombres y estas posposiciones excepto con -ko: para esta combinación no se ha creado ninguna categoría adv.gen. Las demás sí que son equivalentes en todo a un adverbio.
Posposiciones separables
Son posposiciones que aparecen a continuación de un SN o SP (es decir, SN más una posposición). El sintagma resultante puede tener la función de adverbio (por lo tanto, de complemento circunstancial), o de adjetivo si se utiliza la forma con -ko:
después de un SN en genitivo
- GEN kontra[ko] (against)
- GEN aurka[ko] (against)
- GEN alde (for)
- GEN arabera (according to)
después de un SN en absolutivo o en otros casos:
- ABS|PART gabe[ko] (without)
- ABS|ERG| salbu (except)
- INSTR gain (in addition to)
- DAT esker (thanks to)
- ADL (ABS) arte (until)
- ABS inguru (around)
Verbos
Sólo se han convertido y tratado las formas verbales del modo indicativo. Falta decidir los símbolos morfológicos y los lemas, así como tratar en el transfer adecuadamente, de los modos subjuntivo, potencial, condicional e imperativo.
Las categorías de los verbos son: sintéticos (vbsint), léxicos (o analíticos) (vblex) y perifrásticos (vbper).
Cosas pendientes
las palabras 'ohi' y 'bide' no tienen categoría definitiva asignada ni se traducen correctamente. En comparación con ellas, 'ote' está etiquetado como 'part' y se traduce bien.
Tagger
- palabras que desambigua mal porque analiza en todas sus partes y no como una sola palabra. El apilamiento de colas que realiza el tagger favorece la interpretación larga. Son candidatas a lexicalización en el tsx. Entre paréntesis aparece la forma errónea que da Apertium.
- dagoeneko: ya (*del que está)
- zergatik: por qué (*desde el impuesto)
- artean: entre (*en el arte)
- dena: todo (*el que es)
- arren:aunque (*de los palmos/de los de macho)
- gutxienez: por lo menos (*por lo menos por los) (aquí el tagger escoge la categoría correcta pero añade al final la cola de la otra)
- kultura: cultura (*al culto)
- zurekin: contigo (*con las maderas)
- aterako dira: saldrán (*a la puerta son)
- hartzen du: coge (*de los de oso tiene)
- ezagutzen dugu: conocemos (*de los concimientos tenemos)
Una posible solución para aterako dira, hartzen du y problemas análogos es añadir los verbos auxiliares (dira, etc.) en el paradigma de los verbos, de modo que la interpretación verbal sea la única posible.
Las posposiciones como artean también podrían añadirse a los paradigmas de las demás posposiciones, de manera que se eliminarían las demás interpretaciones.
Otra solución sería definir como multiformas léxicas en el tsx la gran mayoría de combinaciones de formas léxicas, de modo que el tagger las viera siempre como una unidad.
Otra manera de que palabras como 'hartzen' no dieran problemas, sería eliminar la combinación 'hartz<n>+a<det><art><pl>+en<post>' del diccionario morfológico. Sergio ha propuesto una manera: crear un índice en una entrada del paradigma (p. ex. ind="2" en la entrada del paradigma que añade +a<det><art><pl>+en<post> al lema) i en la entrada de 'hartz' poner algo que signifique 'ignorar entrada del paradigma con índice 2'.
Y otra manera sería lexicalizar formas como 'hartzen' o 'artean' en el tsx y arreglar el problema mediante forbids.
Transferencia
Apertium eu-es funciona con tres módulos de transferencia.
Operaciones en el primer módulo:
en el primer módulo se crean los chunks, que principalmente corresponden a sintagmas. Los chunks más importantes son:
- SN = sintagma nominal
- SV = sintagma verbal
- SPR = sintagma preposicional
- SPGEN = sintagma preposicional en genitivo
- SVsub = sintagma verbal subordinado
- Orel = oración de relativo
- SA = sintagma adjetival
- SADV = sintagma adverbial
- PREP = preposición (sin el SN que formaría un sintagma preposicional)
Hay otros chunks para palabras solas o grupos de palabras que necesitan algún procesamiento en el segundo módulo de transferencia.
Algunos detalles:
- En los sintagmas preposicionales, una macro determina si se trata de un sintagma en genitivo (con las posposiciones -ko o -ren), en cuyo caso queda nombrado como SPGEN; el módulo t2x realizará los reordenamientos pertinentes.
- Hay bastantes SN que contienen en sí mismos componentes en genitivo. No son etiquetados como SPGEN porque el reordenamiento ya se hace en el t1x. Por ejemplo, 'amaren etxea' es etiquetado como SN en el t1x. Los sintagmas etiquetados como SPGEN son los que escapan a las reglas del t1x, de manera que sintagmas complicados en genitivo no detectados en el t1x puedan tratarse en el t2x. Por ejemplo:
'arratsaldeko azken orduan' t1x: SPGEN[arratsaldeko] + SPR[azken orduan] t2x: SPR + SPGEN ---> En la última hora de la tarde pero 'Espainiako Errepublikako Gobernua' t1x: SN[Espainiako Errepublikako Gobernua]
- las posposiciones separadas (spost) son detectadas en el t1x i etiquetadas como PREP o bien como PREPGEN en caso de ir seguidas de la posposición -ko. El t2x realiza cambios de orden para patrones de chunks como:
SPR + PREP => PREP + SPR (iturri ofizialen arabera - según las fuentes oficiales) SN + PREP => PREP + SN (entrenatzaile gabe - sin entrenador) SPGEN + SPR + PREP => PREP + SPR + SPGEN (EAren presidentearen ustez - en opinión del presidente de EA) SPR + PREPGEN + SN => SN + PREPGEN + SPR (Autonomiari buruzko erreferenduma - El referéndum sobre la autonomía) SPR + PREPGEN + SPGEN + SADV => SADV + SPGEN + PREPGEN + SPR (gobernu demokratikoaren aurkako kolpearen ostean - Después del golpe contra el gobierno democrático)
- una macro en las reglas de verbos detecta los valores de NOR, NORI y NORK del verbo y envía los pronombres proclíticos necesarios dentro del mismo chunk.
- las reglas de verbos del t1x detectan y procesan los verbos en indicativo, incluyendo las formas negativas: ikusi dut, etorriko ziren, eskatuko diete, daramat, prestatzen ari gara, ez naiz etortzen. Detectan también los mismo verbos con la partícula subordinante -ela intercalada: ez duela ikusi
- las formas verbales con sintagmas intercalados son tratados de la siguiente manera: en el t1x se crean chunks con los posibles verbos auxiliares (izan, ukan), el adverbio 'ez', las partículas subordinantes y las formas no personales de verbo. En el t2x, hay reglas para detectar formas verbales separadas por sintagmas intercalados. Ejemplo:
'ez dute ezer aurkitu' t1x: Ez<SADV> + vbconj_ukan<SV> + SN + pp<SV> t2x: Ez<SADV> + pp-vbconj_ukan[SV] + SN el t3x modifica el chunk verbal para crear la forma flexionada convenientemente. ---> 'No han encontrado nada' 'ez duela Lisboako Ituna berriro negoziatuko' t1x: Ez<SADV> + vbconj_ukan<SV> + que<cnjsub> + SN + SADV + pfut<SV> t2x: que<cnjsub> + ez<SADV> + pfut<SV> + SADV + SN --->'que no negociará de nuevo el Pacto de Lisboa'
Cosas pendientes
- El sistema no puede generar verbos reflexivos en castellano. Habría que etiquetarlos de alguna manera en el diccionario bilingüe, el monolingüe o en el módulo de transferencia, y hacer la generación de los pronombres reflexivos.
Ejemplo:
jaiki: levantarse gerturatu: acercarse ahalegindu: esforzarse zaletu: aficionarse bere buruaz beste egin: suicidarse
En algunos casos habría que distinguir entre usos transitivos e intransitivos de los verbos (verbos NOR, NOR-NORK, NOR-NORI, NOR-NORI-NORK)
hurbildu zen: se aproximó hurbildu zuen: aproximó lotsatu zen: se avergonzó
Lo que también valdría para la elección del lema correcto:
atera zen: salió atera zuen: sacó