Difference between revisions of "Basque and Spanish/informe 2008"

From Apertium
Jump to navigation Jump to search
Line 3: Line 3:
   
 
==Diccionarios morfológicos==
 
==Diccionarios morfológicos==
  +
  +
===1. Cambios respecto a Matxin ===
 
Se han convertido los diccionarios de Matxin y se han hecho varios cambios. Los principales son:
 
Se han convertido los diccionarios de Matxin y se han hecho varios cambios. Los principales son:
 
*las aglutinaciones se tratan como formas léxicas separadas (''etxea'' en Matxin era ''nombre absolutivo singular'', en Apertium es ''nombre + determinante singular'')
 
*las aglutinaciones se tratan como formas léxicas separadas (''etxea'' en Matxin era ''nombre absolutivo singular'', en Apertium es ''nombre + determinante singular'')
*se han sacado de los paradigmas los morfemas de derivación, se han dejado sólo los de flexión/aglutinación. Hacían augmentar enormemente el volumen de los diccionarios, ya que se aplicaban en todas las palabras, tanto si la forma derivada existía en el lenguaje real como si no. Algunos morfemas, son, . ej. -pean (ahopean, kontrolpean, isilpean, lelopean); -arazi (g
+
*se han sacado de los paradigmas los morfemas de derivación, se han dejado sólo los de flexión/aglutinación. Hacían augmentar enormemente el volumen de los diccionarios, ya que se aplicaban en todas las palabras, tanto si la forma derivada existía en el lenguaje real como si no. Algunos morfemas, son, p. ej. -pean (''ahopean'', ''kontrolpean'', ''isilpean'', ''lelopean''); -arazi (''gozarazi'', ''lotsarazi''); -txo (''aitatxo'', ''apurtxo''. Algunas de las posibles palabras derivadas se han introducido en el diccionario como palabras completas. Hay que estudiar si sería conveniente volver a introducir algunos de los morfemas más productivos, como ''arazi''.
   
   

Revision as of 10:10, 15 July 2008

Apertium eu-es: descripción y cuestiones pendientes

Diccionarios morfológicos

1. Cambios respecto a Matxin

Se han convertido los diccionarios de Matxin y se han hecho varios cambios. Los principales son:

  • las aglutinaciones se tratan como formas léxicas separadas (etxea en Matxin era nombre absolutivo singular, en Apertium es nombre + determinante singular)
  • se han sacado de los paradigmas los morfemas de derivación, se han dejado sólo los de flexión/aglutinación. Hacían augmentar enormemente el volumen de los diccionarios, ya que se aplicaban en todas las palabras, tanto si la forma derivada existía en el lenguaje real como si no. Algunos morfemas, son, p. ej. -pean (ahopean, kontrolpean, isilpean, lelopean); -arazi (gozarazi, lotsarazi); -txo (aitatxo, apurtxo. Algunas de las posibles palabras derivadas se han introducido en el diccionario como palabras completas. Hay que estudiar si sería conveniente volver a introducir algunos de los morfemas más productivos, como arazi.


Tagger

  • palabras que desambigua mal porque analiza en todas sus partes y no como una sola palabra. El apilamiento de colas que realiza el tagger favorece la interpretación larga. Candidatas a lexicalización en el tsx:
    • dagoeneko: ya (*del que está)
    • zergatik: por qué (*desde el impuesto)
    • artean: entre (*en el arte)
    • zurekin: contigo (*con las maderas)
    • aterako dira: saldrán (*a la puerta son)


Una posible solución para aterako y problemas análogos es añadir los verbos auxiliares (dira, etc.) en el paradigma de los verbos, de modo que la interpretación verbal sea la única posible. Las posposiciones como artean también podrían añadirse a los paradigmas de las demás posposiciones.