Spanish and Esperanto/Notoj pri versioj
En ĉi tiu paĝo ni provas klarigi kelkajn elementojn de la versioj de la hispana-esperanta tradukilo.
Contents
Versión del 30.09.2011
La versión es la tercera que se publica, después de la de enero 2007 y de la de mediados de 2009. Los cambios más importantes son:
- Ampliación de los diccionarios
- Mejora en la desambiguación:
Se ha introducido un nuevo nivel que utiliza Constraint Grammar que sobre todo desambigua entre nombres y adjetivos (lo cual mejora extraordinariamente el resultado: cerca de un 15% de las frases tenían errores de desambiguación que repercutían en una mala traducción, particularmente porque hay que invertir el orden nombre-adjetivo en el sintagma nominal y que, contrariamente a lo que a menudo ocurre en castellano y otras lenguas románicas, nombre y adjetivo tienen formas distintas en esperanto). Además, también habían numerosos errores de desambiguación de preposiciones como para, sobre, entre, salvo, conforme, como, etc.; frecuentes formas verbales ambiguas como algunas de los verbos ser e ir, sentir y sentar, poder y podar, soler y salar, fundar y fundir, etc. Queda mucho por hacer aunque probablemente vale la pena volver a empezar ya que todo empezó como una prueba de una nueva herramienta.
- Mejora en la transferencia
- Se pasa de una transferencia de tres niveles a una multinivel, tal como ya se ha hecho, por lo menos, en inglés > esperanto y francés > esperanto. Básicamente, se ha seguido la estructura del traductor de francés a esperanto, añadiendo el paso antaux5_t2x (para la generación del pronombre sujeto) y eliminando el paso post_t2x (que trata del género y el número cuando es ambiguo, cosa innecesaria en el caso del traductor de castellano, debido a una estructura de diccionario monolingüe de castellano distinta del de francés, en donde abundan mf y sp). Así la estructura queda en:
- t1x
- antaux1_t2x: básicamente, agrupación de sintagmas en otros mayores
- antaux2_t2x: básicamente, CD con preposición a, ciertas preposiciones y predicativos
- antaux3_t2x: básicamente, pronombres relativos
- antaux4_t2x: básicamente, tiempos verbales en subordinadas
- antaux5_t2x: básicamente, generación del pronombre sujeto y tratamiento de oraciones de relativo
- t2x: básicamente, generación del acusativo
- t3x
- Los aspectos en los que más se ha trabajado en la nueva versión son:
- Tratamiento de verbos con pronombres para distinguir entre formas de pasiva refleja, pronominales, transitividad (komenci/komenciĝi), agentividad (morti/mortigi), no agentividad (rompi/rompiĝi), reciprocidad (Juan y Pedro no se hablan) y redundancia/refuerzo (se come un buey). Queda mucho por mejorar, pero este tratamiento resulta imprescidible para obtener una cierta calidad de traducción.
- Tratamiento de los complementos directos introducidos por la preposición a.
- Mejoras en la generación/no generación del "acusativo de dirección".
- Mejoras en la generación/no generación del acusativo.
- Mejoras en el tratamiento del predicativo.
- Mejoras en las dobles negaciones (no como nunca, no como nada, etc.).
- Se pasa de una transferencia de tres niveles a una multinivel, tal como ya se ha hecho, por lo menos, en inglés > esperanto y francés > esperanto. Básicamente, se ha seguido la estructura del traductor de francés a esperanto, añadiendo el paso antaux5_t2x (para la generación del pronombre sujeto) y eliminando el paso post_t2x (que trata del género y el número cuando es ambiguo, cosa innecesaria en el caso del traductor de castellano, debido a una estructura de diccionario monolingüe de castellano distinta del de francés, en donde abundan mf y sp). Así la estructura queda en:
Tablas resumen
Léxico
categoría | 01/2008 | 11/2010 | 09/2011 |
---|---|---|---|
total | 12.300 | 18.480 | 48.406 |
nombres comunes | 7.090 | 9.079 | 14.013 |
nombres propios | 349 | 488 | 21.826 |
verbos | 2.012 | 2.561 | 3.726 |
adjetivos | 1.818 | 2.997 | 4.960 |
adverbios | 433 | 2.693 | 3.089 |
conjunciones | 108 | 128 | |
preposiciones | 166 | 234 | |
otros | 598 | 388 | 430 |
cobertura | 88,6%1 | - | 92,8%2 |
1 Corpus periodístico
2 Wikipedia
Reglas de desambiguación y transferencia
11/2010 | 09/2011 | |
---|---|---|
rlx | - | 282 |
total reglas transferencia | 234 | 437 |
t1x | 174 | 302 |
antaux1_t2x | - | 35 |
antaux2_t2x | - | 22 |
antaux3_t2x | - | 11 |
antaux4_t2x | - | 4 |
antaux5_t2x | - | 21 |
t2x | 59 | 41 |
t3x | 1 | 1 |
Calidad
Traducción del Eurotopics 30/09/2011
Statistics about input files
Number of words in reference: 2943
Number of words in test: 3024
Number of unknown words (marked with a star) in test: 117
Percentage of unknown words: 3,87 %
Results when removing unknown-word marks (stars)
Edit distance: 599
Word error rate (WER): 20,35 %
Number of position-independent correct words: 2497
Position-independent word error rate (PER): 17,91 %
Ver detalle de los datos de calidad
Ver también
Notas sobre las versiones del traductor de francés a esperanto