Difference between revisions of "Basque and Spanish/informe 2008"

From Apertium
Jump to navigation Jump to search
Line 92: Line 92:
En el diccionario se han añadido las palabras resultantes de combinar estos nombres posicionales con estas posposiciones, y se les ha asignado las etiquetas <adv><gen> (excepto 'aldera' que se ha puesto como <spost> únicamente).
En el diccionario se han añadido las palabras resultantes de combinar estos nombres posicionales con estas posposiciones, y se les ha asignado las etiquetas <adv><gen> (excepto 'aldera' que se ha puesto como <spost> únicamente).


==== Verbos ====



==== Coses pendientes ====

las palabras 'ohi' y 'bide' no tienen categoría definitiva asignada ni se traducen correctamente. En comparación con ellas, 'ote' está etiquetado como 'part' y se traduce bien.




Line 131: Line 138:
Una posible solución para ''aterako dira'', ''hartzen du'' y problemas análogos es añadir los verbos auxiliares (''dira'', etc.) en el paradigma de los verbos, de modo que la interpretación verbal sea la única posible.
Una posible solución para ''aterako dira'', ''hartzen du'' y problemas análogos es añadir los verbos auxiliares (''dira'', etc.) en el paradigma de los verbos, de modo que la interpretación verbal sea la única posible.
Las posposiciones como ''artean'' también podrían añadirse a los paradigmas de las demás posposiciones, de manera que se eliminarían las demás interpretaciones.
Las posposiciones como ''artean'' también podrían añadirse a los paradigmas de las demás posposiciones, de manera que se eliminarían las demás interpretaciones.

==Transferencia==

Apertium eu-es funciona con tres módulos de transferencia.

Revision as of 09:48, 16 July 2008

Apertium eu-es: descripción y cuestiones pendientes

Diccionarios morfológicos

1. Cambios respecto a Matxin

Se han convertido los diccionarios de Matxin y se han hecho varios cambios. Los principales son:

  • las aglutinaciones o "declinaciones" se tratan como formas léxicas separadas, (etxea en Matxin era nombre absolutivo singular, en Apertium es nombre + determinante singular):
gizonentzat : gizon.n + a.det.pl + tzat.post

El absolutivo no se marca

gizonak : gizon.n + a.det.pl

Los determinantes y las posposiciones reciben un lema mnemónico, uno por caso:

gizonei : gizon.n + a.det.pl + i.post


Mirenekin : Miren.NP + kin.post
katuarentzat : katu.n + a.det.sg + tzat.post

Las posposiciones que puede modificar un sintagma nominal se marcan explícitamente como ko

etxeetako: etxe.n + a.det.pl + ko.post.ko
Mikelekin : Mikel.NP + kin.post
Mikelekiko : Mikel.NP + kin.post.ko
  • se han sacado de los paradigmas los morfemas de derivación, se han dejado sólo los de flexión / aglutinación. Hacían augmentar enormemente el volumen de los diccionarios, ya que se aplicaban en todas las palabras, tanto si la forma derivada existía en el lenguaje real como si no. Algunos morfemas, son, p. ej. -pean (ahopean, kontrolpean, isilpean, lelopean); -arazi (gozarazi, lotsarazi); -txo (aitatxo, apurtxo). Algunas de las posibles palabras derivadas se han introducido en el diccionario como palabras completas. Hay que estudiar si sería conveniente volver a introducir algunos de los morfemas más productivos, como arazi.

2. Elección de categorías: dudas

Possessives

A problem appears with "possessives" like 'nire', 'gure', 'zuen', 'haien', 'bere'. Should they be treated as preadjectives ('izenlagun') or as genitive constructs:

nire: ni.pron.sg + ren.post.ko
haien : hura.pron.pl + ren.post.ko

Decisión final: son analizadas con sus morfemas de genitivo para ofrecer un análisis morfológico fiel a la realidad.


Undefined determiners (or quantifiers)

There are some words in basque that could be considered as adjectives or as quantifiers (asko, gehiegi, nahiko, etc.).

Like determiners and unlike adjectives, they can signal the end of a SN. This is a reason why they shouldn't be tagged as adjectives.

They can also be followed by another deteminer ('etxe askoa').

Matxin dictionaries tag them as undefined determiners. We decided to tag them this way, with a distinction for the ones that come usually before the noun, like the adjectives 'izenlagun' (for example, 'nahiko').

Posposiciones aglutinadas y separadas, adverbios, conjunciones

Las posposiciones pegadas a la palabra precedente són analizadas como <post> (etxean - etxe<n>+an<post>) y son traducidas al castellano como preposiciones. Existen otras posposiciones que se escriben como palabras independientes, pero cuya función és igual a la de las posposiciones anteriores, y que se traducen al castellano también como preposiciones. Para estas, se ha escogido la etiqueta <spost> (separate postposition). Estas son, a día de hoy: antzera, menpe, begira, arteraino, aldera, buruz, bitartez, zehar, bila, gorabehera, izan ezik, esker, esku, barik, gabe, inguru, gainero, gain, ustez, iduriko, kanpo, alde, kontra, aurka, aburuz, esanetan, arabera, gero, arte, salbu. Su paradigma incluye las posposiciones pertinentes (kontrako, etc.).

Por otro lado tenemos lo que hemos etiquetado como conjunciones adverbiales (cnjadv) y los adverbios de genitivo (<adv><gen>). Sus características y función se confuden con las de las posposiciones, por lo que no tenemos muy claro qué hacer con ellas.

Las cnjadv son por ahora: harik eta, arren, eta gero, ez ezik, ezean, ezik, nahiz, ere; -nean, -nez-, -lakoan, -lako.


Sobre los adverbios de genitivo

Basque has constructions to express positions relative to an object which are based around what we could call positional nouns. For instance the positional noun 'aurre' (front part) is used in 'etxearen aurrean' (in front of the house) or 'etxearen aurretik' (starting at the front of the house). Here is a non-exhaustive list of these positional nouns:

  • aurre (front)
  • atze (back)
  • ondo (side, back)
  • albo (side)
  • azpi (below)
  • gain (on)
  • alde (side)
  • inguru (around)
  • barru (in)
  • pare (front of)

These nouns can take the cases -tik, -ra, -rantz/-runtz, -raino, an and ko.

When these nouns appear with one of these postpositions, they have the function of an adverb (aurrean -> in front of) and the preceding noun appears in genitive (etxearen aurrean).

En el diccionario se han añadido las palabras resultantes de combinar estos nombres posicionales con estas posposiciones, y se les ha asignado las etiquetas <adv><gen> (excepto 'aldera' que se ha puesto como <spost> únicamente).

Verbos

Coses pendientes

las palabras 'ohi' y 'bide' no tienen categoría definitiva asignada ni se traducen correctamente. En comparación con ellas, 'ote' está etiquetado como 'part' y se traduce bien.


Posposiciones separables

Son posposiciones que aparecen a continuación de un SN o SP (es decir, SN más una posposición). El sintagma resultante puede tener la función de adverbio (por lo tanto, de complemento circunstancial), o de adjetivo si se utiliza la forma con -ko:

después de un SN en genitivo

  • GEN kontra[ko] (against)
  • GEN aurka[ko] (against)
  • GEN alde (for)
  • GEN arabera (according to)

después de un SN en absolutivo o en otros casos:

  • ABS|PART gabe[ko] (without)
  • ABS|ERG| salbu (except)
  • INSTR gain (in addition to)
  • DAT esker (thanks to)
  • ADL (ABS) arte (until)
  • ABS inguru (around)

Tagger

  • palabras que desambigua mal porque analiza en todas sus partes y no como una sola palabra. El apilamiento de colas que realiza el tagger favorece la interpretación larga. Son candidatas a lexicalización en el tsx. Entre paréntesis aparece la forma errónea que da Apertium.
    • dagoeneko: ya (*del que está)
    • zergatik: por qué (*desde el impuesto)
    • artean: entre (*en el arte)
    • dena: todo (*el que es)
    • arren:aunque (*de los palmos/de los de macho)
    • gutxienez: por lo menos (*por lo menos por los) (aquí el tagger escoge la categoría correcta pero añade al final la cola de la otra)
    • kultura: cultura (*al culto)
    • zurekin: contigo (*con las maderas)
    • aterako dira: saldrán (*a la puerta son)
    • hartzen du: coge (*de los de oso tiene)


Una posible solución para aterako dira, hartzen du y problemas análogos es añadir los verbos auxiliares (dira, etc.) en el paradigma de los verbos, de modo que la interpretación verbal sea la única posible. Las posposiciones como artean también podrían añadirse a los paradigmas de las demás posposiciones, de manera que se eliminarían las demás interpretaciones.

Transferencia

Apertium eu-es funciona con tres módulos de transferencia.