Spanish and Esperanto/Notoj pri versioj

From Apertium
< Spanish and Esperanto
Revision as of 20:08, 3 October 2011 by Hectoralos (talk | contribs) (→‎Versión del 30.09.2011)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

En ĉi tiu paĝo ni provas klarigi kelkajn elementojn de la versioj de la hispana-esperanta tradukilo.

Versión del 30.09.2011

La versión es la tercera que se publica, después de la de enero 2007 y de la de mediados de 2009. Los cambios más importantes son:

  • Ampliación de los diccionarios
  • Mejora en la desambiguación:
    Se ha introducido un nuevo nivel que utiliza Constraint Grammar que sobre todo desambigua entre nombres y adjetivos (lo cual mejora extraordinariamente el resultado: cerca de un 15% de las frases tenían errores de desambiguación que repercutían en una mala traducción, particularmente porque hay que invertir el orden nombre-adjetivo en el sintagma nominal y que, contrariamente a lo que a menudo ocurre en castellano y otras lenguas románicas, nombre y adjetivo tienen formas distintas en esperanto). Además, también habían numerosos errores de desambiguación de preposiciones como para, sobre, entre, salvo, conforme, como, etc.; frecuentes formas verbales ambiguas como algunas de los verbos ser e ir, sentir y sentar, poder y podar, soler y salar, fundar y fundir, etc. Queda mucho por hacer aunque probablemente vale la pena volver a empezar ya que todo empezó como una prueba de una nueva herramienta.
  • Mejora en la transferencia
    • Se pasa de una transferencia de tres niveles a una multinivel, tal como ya se ha hecho, por lo menos, en inglés > esperanto y francés > esperanto. Básicamente, se ha seguido la estructura del traductor de francés a esperanto, añadiendo el paso antaux5_t2x (para la generación del pronombre sujeto) y eliminando el paso post_t2x (que trata del género y el número cuando es ambiguo, cosa innecesaria en el caso del traductor de castellano, debido a una estructura de diccionario monolingüe de castellano distinta del de francés, en donde abundan mf y sp). Así la estructura queda en:
      • t1x
      • antaux1_t2x: básicamente, agrupación de sintagmas en otros mayores
      • antaux2_t2x: básicamente, CD con preposición a, ciertas preposiciones y predicativos
      • antaux3_t2x: básicamente, pronombres relativos
      • antaux4_t2x: básicamente, tiempos verbales en subordinadas
      • antaux5_t2x: básicamente, generación del pronombre sujeto y tratamiento de oraciones de relativo
      • t2x: básicamente, generación del acusativo
      • t3x
    • Los aspectos en los que más se ha trabajado en la nueva versión son:
      • Tratamiento de verbos con pronombres para distinguir entre formas de pasiva refleja, pronominales, transitividad (komenci/komenciĝi), agentividad (morti/mortigi), no agentividad (rompi/rompiĝi), reciprocidad (Juan y Pedro no se hablan) y redundancia/refuerzo (se come un buey). Queda mucho por mejorar, pero este tratamiento resulta imprescidible para obtener una cierta calidad de traducción.
      • Tratamiento de los complementos directos introducidos por la preposición a.
      • Mejoras en la generación/no generación del "acusativo de dirección".
      • Mejoras en la generación/no generación del acusativo.
      • Mejoras en el tratamiento del predicativo.
      • Mejoras en las dobles negaciones (no como nunca, no como nada, etc.).

Tablas resumen

Léxico

categoría 01/2008 11/2010 09/2011
total 12.300 18.480 48.406
nombres comunes 7.090 9.079 14.013
nombres propios 349 488 21.826
verbos 2.012 2.561 3.726
adjetivos 1.818 2.997 4.960
adverbios 433 2.693 3.089
conjunciones 108 128
preposiciones 166 234
otros 598 388 430
cobertura 88,6%1 - 92,8%2

1 Corpus periodístico
2 Wikipedia

Reglas de desambiguación y transferencia

11/2010 09/2011
rlx - 282
total reglas transferencia 234 437
t1x 174 302
antaux1_t2x - 35
antaux2_t2x - 22
antaux3_t2x - 11
antaux4_t2x - 4
antaux5_t2x - 21
t2x 59 41
t3x 1 1

Calidad

Traducción del Eurotopics 30/09/2011


Statistics about input files



Number of words in reference: 2943
Number of words in test: 3024
Number of unknown words (marked with a star) in test: 117
Percentage of unknown words: 3,87 %

Results when removing unknown-word marks (stars)



Edit distance: 599
Word error rate (WER): 20,35 %
Number of position-independent correct words: 2497
Position-independent word error rate (PER): 17,91 %

Ver detalle de los datos de calidad

Ver también

Notas sobre las versiones del traductor de francés a esperanto