Difference between revisions of "Spanish and Esperanto/Notoj pri versioj"
Hectoralos (talk | contribs) (→Léxico) |
Hectoralos (talk | contribs) |
||
Line 83: | Line 83: | ||
|- |
|- |
||
|} |
|} |
||
===Calidad=== |
|||
Traducción del [http://www.eurotopics.net/es/home/presseschau/archiv/archiv_dossier/DOSSIER94305-Alemania-por-un-mayor-fondo-de-rescate Eurotopics 30/09/2011] |
|||
<br/> |
|||
Statistics about input files<br/> |
|||
-------------------------------------------------------<br/> |
|||
Number of words in reference: 2943<br/> |
|||
Number of words in test: 3024<br/> |
|||
Number of unknown words (marked with a star) in test: 117<br/> |
|||
Percentage of unknown words: 3,87 %<br/> |
|||
<br/> |
|||
Results when removing unknown-word marks (stars)<br/> |
|||
-------------------------------------------------------<br/> |
|||
Edit distance: 599<br/> |
|||
Word error rate (WER): 20,35 %<br/> |
|||
Number of position-independent correct words: 2497<br/> |
|||
Position-independent word error rate (PER): 17,91 % |
|||
[[Spanish_and_Esperanto/Quality tests|Ver detalle de los datos de calidad]] |
|||
=Ver también= |
=Ver también= |
Revision as of 18:54, 30 September 2011
En ĉi tiu paĝo ni provas klarigi kelkajn elementojn de la versioj de la hispana-esperanta tradukilo.
Contents
Versión del 30.09.2011
La versión es la tercera que se publica, después de la de enero 2007 y de la de mediados de 2009. Los cambios más importantes son:
- Ampliación de los diccionarios
- Mejora en la desambiguación:
Se ha introducido un nuevo nivel que utiliza Constraint Grammar que sobre todo desambigua entre nombres y adjetivos (lo cual mejora extraordinariamente el resultado: cerca de un 15% de las frases tenían errores de desambiguación que repercutían en una mala traducción, particularmente porque hay que invertir el orden nombre-adjetivo en el sintagma nominal y que, contrariamente a lo que a menudo ocurre en castellano y otras lenguas románicas, nombre y adjetivo tienen formas distintas en esperanto). Además, también habían numerosos errores de desambiguación de preposiciones como para, sobre, entre, salvo, conforme, como, etc.; formas verbales frecuentes como algunas de los verbos ser e ir, sentir y sentar, poder y podar, soler y salar, fundar y fundir, etc.
- Mejora en la transferencia
- Se pasa de una transferencia de tres niveles a una multinivel, tal como ya se ha hecho, por lo menos, en inglés > esperanto y francés > esperanto. Básicamente, se ha seguido la estructura del traductor de francés a esperanto, añadiendo el paso antaux5_t2x (para la generación del pronombre sujeto) y eliminando el paso post_t2x (que trata del género y el número cuando es ambiguo, cosa innecesaria en el caso del traductor de castellano, debido a una estructura de diccionario monolingüe de castellano distinta del de francés, en donde abundan mf y sp). Así la estructura queda en:
- t1x
- antaux1_t2x
- antaux2_t2x
- antaux3_t2x
- antaux4_t2x
- antaux5_t2x
- t2x
- t3x
- Los aspectos en los que más se ha trabajado en la nueva versión son:
- Tratamiento de verbos con pronombres para distinguir entre formas de pasiva refleja), pronominales, transitividad (komenci/komenciĝi), agentividad (morti/mortigi), no agentividad (rompi/rompiĝi), reciprocidad y redundancia/refuerzo (se come un buey). Queda mucho por mejorar, pero este tratamiento resulta imprescidible para obtener una cierta calidad de traducción.
- Tratamiento de los complementos directos introducidos por la preposición a.
- Mejoras en la generación/no generación del "acusativo de dirección".
- Mejoras en la generación/no generación del acusativo.
- Mejoras en el tratamiento del predicativo.
- Se pasa de una transferencia de tres niveles a una multinivel, tal como ya se ha hecho, por lo menos, en inglés > esperanto y francés > esperanto. Básicamente, se ha seguido la estructura del traductor de francés a esperanto, añadiendo el paso antaux5_t2x (para la generación del pronombre sujeto) y eliminando el paso post_t2x (que trata del género y el número cuando es ambiguo, cosa innecesaria en el caso del traductor de castellano, debido a una estructura de diccionario monolingüe de castellano distinta del de francés, en donde abundan mf y sp). Así la estructura queda en:
Tablas resumen
Léxico
categoria | 01/2008 | 11/2010 | 09/2010 |
---|---|---|---|
total | 12.300 | 18.480 | 48.406 |
nombres comunes | 7.090 | 9.079 | 14.013 |
nombres propios | 349 | 488 | 21.826 |
verbos | 2.012 | 2.561 | 3.726 |
adjetivos | 1.818 | 2.997 | 4.960 |
adverbios | 433 | 2.693 | 3.089 |
conjunciones | 108 | 128 | |
preposiciones | 166 | 234 | |
otros | 598 | 388 | 430 |
cobertura | 88,6%1 | - | 92,8%2 |
1 Corpus periodístico
2 Wikipedia
Reglas de desambiguación y transferencia
11/2010 | 09/2010 | |
---|---|---|
rlx | - | 282 |
total reglas transferencia | 234 | 437 |
t1x | 174 | 302 |
antaux1_t2x | - | 35 |
antaux2_t2x | - | 22 |
antaux3_t2x | - | 11 |
antaux4_t2x | - | 4 |
antaux5_t2x | - | 21 |
t2x | 59 | 41 |
t3x | 1 | 1 |
Calidad
Traducción del Eurotopics 30/09/2011
Statistics about input files
Number of words in reference: 2943
Number of words in test: 3024
Number of unknown words (marked with a star) in test: 117
Percentage of unknown words: 3,87 %
Results when removing unknown-word marks (stars)
Edit distance: 599
Word error rate (WER): 20,35 %
Number of position-independent correct words: 2497
Position-independent word error rate (PER): 17,91 %
Ver detalle de los datos de calidad
Ver también
Notas sobre las versiones del traductor de francés a esperanto