Difference between revisions of "Basque and Spanish/informe 2008"
Line 7: | Line 7: | ||
Se han convertido los diccionarios de Matxin y se han hecho varios cambios. Los principales son: |
Se han convertido los diccionarios de Matxin y se han hecho varios cambios. Los principales son: |
||
*las aglutinaciones se tratan como formas léxicas separadas (''etxea'' en Matxin era ''nombre absolutivo singular'', en Apertium es ''nombre + determinante singular'') |
*las aglutinaciones se tratan como formas léxicas separadas (''etxea'' en Matxin era ''nombre absolutivo singular'', en Apertium es ''nombre + determinante singular'') |
||
⚫ | *se han sacado de los paradigmas los morfemas de derivación, se han dejado sólo los de flexión/aglutinación. Hacían augmentar enormemente el volumen de los diccionarios, ya que se aplicaban en todas las palabras, tanto si la forma derivada existía en el lenguaje real como si no. Algunos morfemas, son, p. ej. -pean (''ahopean'', ''kontrolpean'', ''isilpean'', ''lelopean''); -arazi (''gozarazi'', ''lotsarazi''); -txo (''aitatxo'', ''apurtxo''. Algunas de las posibles palabras derivadas se han introducido en el diccionario como palabras completas. Hay que estudiar si sería conveniente volver a introducir algunos de los morfemas más productivos, como ''arazi''. |
||
====Deklinabidea?==== |
|||
For instance, "declination" will be treated as postpositions: |
|||
<pre> |
|||
gizonentzat : gizon.n + a.det.pl + tzat.post |
|||
</pre> |
|||
In principle, the absolutive will not be marked: |
|||
<pre> |
|||
gizonak : gizon.n + a.det.pl |
|||
</pre> |
|||
Determiners and postpositions will be given mnemonic lemmas, one per case. |
|||
<pre> |
|||
gizonei : gizon.n + a.det.pl + i.post |
|||
Mirenekin : Miren.NP + kin.post |
|||
katuarentzat : katu.n + a.det.sg + tzat.post |
|||
</pre> |
|||
Postpositions which can modify a noun phrase will be marked explicitly as <code>ko</code> |
|||
<pre> |
|||
etxeetako: etxe.n + a.det.pl + ko.post.ko |
|||
Mikelekin : Mikel.NP + kin.post |
|||
Mikelekiko : Mikel.NP + kin.post.ko |
|||
</pre> |
|||
⚫ | *se han sacado de los paradigmas los morfemas de derivación, se han dejado sólo los de flexión / aglutinación. Hacían augmentar enormemente el volumen de los diccionarios, ya que se aplicaban en todas las palabras, tanto si la forma derivada existía en el lenguaje real como si no. Algunos morfemas, son, p. ej. -pean (''ahopean'', ''kontrolpean'', ''isilpean'', ''lelopean''); -arazi (''gozarazi'', ''lotsarazi''); -txo (''aitatxo'', ''apurtxo''. Algunas de las posibles palabras derivadas se han introducido en el diccionario como palabras completas. Hay que estudiar si sería conveniente volver a introducir algunos de los morfemas más productivos, como ''arazi''. |
||
===2. Dudas en la elección de categorías === |
|||
====Possessives?==== |
|||
A problem appears with "possessives" like 'nire', 'gure', 'zuen', 'haien', 'bere'. Should they be treated as preadjectives ('izenlagun') or as genitive constructs: |
|||
<pre> |
|||
nire: ni.pron.sg + ren.post.ko |
|||
haien : hura.pron.pl + ren.post.ko |
|||
</pre> |
|||
Decisión final: son analizadas con sus morfemas de genitivo para ofrecer un análisis morfológico fiel a la realidad. |
|||
====Undefined determiners (or quantifiers)==== |
|||
There are some words in basque that could be considered as adjectives or as quantifiers (asko, gehiegi, nahiko, etc.). |
|||
Like determiners and unlike adjectives, they can signal the end of a SN. This is a reason why they shouldn't be tagged as adjectives. |
|||
They can also be followed by another deteminer ('etxe askoa'). |
|||
Matxin dictionaries tag them as undefined determiners. We decided to tag them this way, with a distinction for the ones that come usually before the noun, like the adjectives 'izenlagun' (for example, 'nahiko'). |
|||
==== Posposiciones aglutinadas y separadas, adverbios, conjunciones ==== |
|||
Las posposiciones pegadas a la palabra precedente són analizadas como <post> (etxean - etxe<n>+an<post>) y son traducidas al castellano como preposiciones. |
|||
Existen otras posposiciones que se escriben como palabras independientes, pero cuya función és igual a la de las posposiciones anteriores, y que se traducen al castellano también como preposiciones. Para estas, se ha escogido la etiqueta <spost> (separate postposition). Estas son, a día de hoy: ''antzera, menpe, begira, arteraino, aldera, buruz, bitartez, zehar, bila, gorabehera, izan ezik, esker, esku, barik, gabe, inguru, gainero, gain, ustez, iduriko, kanpo, alde, kontra, aurka, aburuz, esanetan, arabera, gero, arte''. |
|||
Su paradigma incluye las posposiciones oportunas (''kontrako'', etc.) |
|||
Por otro lado |
|||
Line 14: | Line 80: | ||
*palabras que desambigua mal porque analiza en todas sus partes y no como una sola palabra. El apilamiento de colas que realiza el tagger favorece la interpretación larga. |
*palabras que desambigua mal porque analiza en todas sus partes y no como una sola palabra. El apilamiento de colas que realiza el tagger favorece la interpretación larga. Son candidatas a lexicalización en el tsx. |
||
**dagoeneko: ya (*del que está) |
**dagoeneko: ya (*del que está) |
||
**zergatik: por qué (*desde el impuesto) |
**zergatik: por qué (*desde el impuesto) |
Revision as of 10:35, 15 July 2008
Apertium eu-es: descripción y cuestiones pendientes
Diccionarios morfológicos
1. Cambios respecto a Matxin
Se han convertido los diccionarios de Matxin y se han hecho varios cambios. Los principales son:
- las aglutinaciones se tratan como formas léxicas separadas (etxea en Matxin era nombre absolutivo singular, en Apertium es nombre + determinante singular)
Deklinabidea?
For instance, "declination" will be treated as postpositions:
gizonentzat : gizon.n + a.det.pl + tzat.post
In principle, the absolutive will not be marked:
gizonak : gizon.n + a.det.pl
Determiners and postpositions will be given mnemonic lemmas, one per case.
gizonei : gizon.n + a.det.pl + i.post Mirenekin : Miren.NP + kin.post katuarentzat : katu.n + a.det.sg + tzat.post
Postpositions which can modify a noun phrase will be marked explicitly as ko
etxeetako: etxe.n + a.det.pl + ko.post.ko Mikelekin : Mikel.NP + kin.post Mikelekiko : Mikel.NP + kin.post.ko
- se han sacado de los paradigmas los morfemas de derivación, se han dejado sólo los de flexión / aglutinación. Hacían augmentar enormemente el volumen de los diccionarios, ya que se aplicaban en todas las palabras, tanto si la forma derivada existía en el lenguaje real como si no. Algunos morfemas, son, p. ej. -pean (ahopean, kontrolpean, isilpean, lelopean); -arazi (gozarazi, lotsarazi); -txo (aitatxo, apurtxo. Algunas de las posibles palabras derivadas se han introducido en el diccionario como palabras completas. Hay que estudiar si sería conveniente volver a introducir algunos de los morfemas más productivos, como arazi.
2. Dudas en la elección de categorías
Possessives?
A problem appears with "possessives" like 'nire', 'gure', 'zuen', 'haien', 'bere'. Should they be treated as preadjectives ('izenlagun') or as genitive constructs:
nire: ni.pron.sg + ren.post.ko haien : hura.pron.pl + ren.post.ko
Decisión final: son analizadas con sus morfemas de genitivo para ofrecer un análisis morfológico fiel a la realidad.
Undefined determiners (or quantifiers)
There are some words in basque that could be considered as adjectives or as quantifiers (asko, gehiegi, nahiko, etc.).
Like determiners and unlike adjectives, they can signal the end of a SN. This is a reason why they shouldn't be tagged as adjectives.
They can also be followed by another deteminer ('etxe askoa').
Matxin dictionaries tag them as undefined determiners. We decided to tag them this way, with a distinction for the ones that come usually before the noun, like the adjectives 'izenlagun' (for example, 'nahiko').
Posposiciones aglutinadas y separadas, adverbios, conjunciones
Las posposiciones pegadas a la palabra precedente són analizadas como <post> (etxean - etxe<n>+an<post>) y son traducidas al castellano como preposiciones. Existen otras posposiciones que se escriben como palabras independientes, pero cuya función és igual a la de las posposiciones anteriores, y que se traducen al castellano también como preposiciones. Para estas, se ha escogido la etiqueta <spost> (separate postposition). Estas son, a día de hoy: antzera, menpe, begira, arteraino, aldera, buruz, bitartez, zehar, bila, gorabehera, izan ezik, esker, esku, barik, gabe, inguru, gainero, gain, ustez, iduriko, kanpo, alde, kontra, aurka, aburuz, esanetan, arabera, gero, arte. Su paradigma incluye las posposiciones oportunas (kontrako, etc.)
Por otro lado
Tagger
- palabras que desambigua mal porque analiza en todas sus partes y no como una sola palabra. El apilamiento de colas que realiza el tagger favorece la interpretación larga. Son candidatas a lexicalización en el tsx.
- dagoeneko: ya (*del que está)
- zergatik: por qué (*desde el impuesto)
- artean: entre (*en el arte)
- zurekin: contigo (*con las maderas)
- aterako dira: saldrán (*a la puerta son)
Una posible solución para aterako y problemas análogos es añadir los verbos auxiliares (dira, etc.) en el paradigma de los verbos, de modo que la interpretación verbal sea la única posible.
Las posposiciones como artean también podrían añadirse a los paradigmas de las demás posposiciones.