Difference between revisions of "Spanish and Esperanto/Notoj pri versioj"
Hectoralos (talk | contribs) |
Hectoralos (talk | contribs) |
||
(One intermediate revision by the same user not shown) | |||
Line 6: | Line 6: | ||
* Ampliación de los diccionarios |
* Ampliación de los diccionarios |
||
* Mejora en la desambiguación:<br/>Se ha introducido un nuevo nivel que utiliza [[CG|Constraint Grammar]] que sobre todo desambigua entre nombres y adjetivos (lo cual mejora extraordinariamente el resultado: cerca de un 15% de las frases tenían errores de desambiguación que repercutían en una mala traducción, particularmente porque hay que invertir el orden nombre-adjetivo en el sintagma nominal y que, contrariamente a lo que a menudo ocurre en castellano y otras lenguas románicas, nombre y adjetivo tienen formas distintas en esperanto). Además, también habían numerosos errores de desambiguación de preposiciones como ''para'', ''sobre'', ''entre'', ''salvo'', ''conforme'', ''como'', etc.; formas verbales |
* Mejora en la desambiguación:<br/>Se ha introducido un nuevo nivel que utiliza [[CG|Constraint Grammar]] que sobre todo desambigua entre nombres y adjetivos (lo cual mejora extraordinariamente el resultado: cerca de un 15% de las frases tenían errores de desambiguación que repercutían en una mala traducción, particularmente porque hay que invertir el orden nombre-adjetivo en el sintagma nominal y que, contrariamente a lo que a menudo ocurre en castellano y otras lenguas románicas, nombre y adjetivo tienen formas distintas en esperanto). Además, también habían numerosos errores de desambiguación de preposiciones como ''para'', ''sobre'', ''entre'', ''salvo'', ''conforme'', ''como'', etc.; frecuentes formas verbales ambiguas como algunas de los verbos ''ser'' e ''ir'', ''sentir'' y ''sentar'', ''poder'' y ''podar'', ''soler'' y ''salar'', ''fundar'' y ''fundir'', etc. Queda mucho por hacer aunque probablemente vale la pena volver a empezar ya que todo empezó como una prueba de una nueva herramienta. |
||
* Mejora en la transferencia |
* Mejora en la transferencia |
||
** Se pasa de una transferencia de tres niveles a una [[N-Stage_transfer|multinivel]], tal como ya se ha hecho, por lo menos, en [[English and Esperanto|inglés > esperanto]] y [[French and Esperanto|francés > esperanto]]. Básicamente, se ha seguido [[French_and_Esperanto/Notoj_pri_versioj|la estructura del traductor de francés a esperanto]], añadiendo el paso antaux5_t2x (para la generación del pronombre sujeto) y eliminando el paso post_t2x (que trata del género y el número cuando es ambiguo, cosa innecesaria en el caso del traductor de castellano, debido a una estructura de diccionario monolingüe de castellano distinta del de francés, en donde abundan ''mf'' y ''sp''). Así la estructura queda en: |
** Se pasa de una transferencia de tres niveles a una [[N-Stage_transfer|multinivel]], tal como ya se ha hecho, por lo menos, en [[English and Esperanto|inglés > esperanto]] y [[French and Esperanto|francés > esperanto]]. Básicamente, se ha seguido [[French_and_Esperanto/Notoj_pri_versioj|la estructura del traductor de francés a esperanto]], añadiendo el paso antaux5_t2x (para la generación del pronombre sujeto) y eliminando el paso post_t2x (que trata del género y el número cuando es ambiguo, cosa innecesaria en el caso del traductor de castellano, debido a una estructura de diccionario monolingüe de castellano distinta del de francés, en donde abundan ''mf'' y ''sp''). Así la estructura queda en: |
||
*** t1x |
*** t1x |
||
*** antaux1_t2x |
*** antaux1_t2x: básicamente, agrupación de sintagmas en otros mayores |
||
*** antaux2_t2x: básicamente, CD con preposición ''a'', ciertas preposiciones y predicativos |
|||
*** antaux2_t2x |
|||
*** antaux3_t2x |
*** antaux3_t2x: básicamente, pronombres relativos |
||
*** antaux4_t2x |
*** antaux4_t2x: básicamente, tiempos verbales en subordinadas |
||
*** antaux5_t2x: básicamente, generación del pronombre sujeto y tratamiento de oraciones de relativo |
|||
*** antaux5_t2x |
|||
*** t2x: básicamente, generación del acusativo |
|||
*** t2x |
|||
*** t3x |
*** t3x |
||
** Los aspectos en los que más se ha trabajado en la nueva versión son: |
** Los aspectos en los que más se ha trabajado en la nueva versión son: |
||
*** Tratamiento de verbos con pronombres para distinguir entre formas de pasiva refleja |
*** Tratamiento de verbos con pronombres para distinguir entre formas de pasiva refleja, pronominales, transitividad (''komenci/komenciĝi''), agentividad (''morti/mortigi''), no agentividad (''rompi/rompiĝi''), reciprocidad (''Juan y Pedro no se hablan'') y redundancia/refuerzo (''se come un buey''). Queda mucho por mejorar, pero este tratamiento resulta imprescidible para obtener una cierta calidad de traducción. |
||
*** Tratamiento de los complementos directos introducidos por la preposición ''a''. |
*** Tratamiento de los complementos directos introducidos por la preposición ''a''. |
||
*** Mejoras en la generación/no generación del "acusativo de dirección". |
*** Mejoras en la generación/no generación del "acusativo de dirección". |
||
*** Mejoras en la generación/no generación del acusativo. |
*** Mejoras en la generación/no generación del acusativo. |
||
*** Mejoras en el tratamiento del predicativo. |
*** Mejoras en el tratamiento del predicativo. |
||
*** Mejoras en las dobles negaciones (''no como nunca, no como nada'', etc.). |
|||
==Tablas resumen== |
==Tablas resumen== |
||
Line 30: | Line 31: | ||
{|class=wikitable |
{|class=wikitable |
||
! |
! categoría !! 01/2008 !! 11/2010 !! 09/2011 |
||
|- |
|- |
||
! total !! align=right | 12.300 !! align=right | 18.480 !! align=right | 48.406 |
! total !! align=right | 12.300 !! align=right | 18.480 !! align=right | 48.406 |
Latest revision as of 20:08, 3 October 2011
En ĉi tiu paĝo ni provas klarigi kelkajn elementojn de la versioj de la hispana-esperanta tradukilo.
Contents
Versión del 30.09.2011[edit]
La versión es la tercera que se publica, después de la de enero 2007 y de la de mediados de 2009. Los cambios más importantes son:
- Ampliación de los diccionarios
- Mejora en la desambiguación:
Se ha introducido un nuevo nivel que utiliza Constraint Grammar que sobre todo desambigua entre nombres y adjetivos (lo cual mejora extraordinariamente el resultado: cerca de un 15% de las frases tenían errores de desambiguación que repercutían en una mala traducción, particularmente porque hay que invertir el orden nombre-adjetivo en el sintagma nominal y que, contrariamente a lo que a menudo ocurre en castellano y otras lenguas románicas, nombre y adjetivo tienen formas distintas en esperanto). Además, también habían numerosos errores de desambiguación de preposiciones como para, sobre, entre, salvo, conforme, como, etc.; frecuentes formas verbales ambiguas como algunas de los verbos ser e ir, sentir y sentar, poder y podar, soler y salar, fundar y fundir, etc. Queda mucho por hacer aunque probablemente vale la pena volver a empezar ya que todo empezó como una prueba de una nueva herramienta.
- Mejora en la transferencia
- Se pasa de una transferencia de tres niveles a una multinivel, tal como ya se ha hecho, por lo menos, en inglés > esperanto y francés > esperanto. Básicamente, se ha seguido la estructura del traductor de francés a esperanto, añadiendo el paso antaux5_t2x (para la generación del pronombre sujeto) y eliminando el paso post_t2x (que trata del género y el número cuando es ambiguo, cosa innecesaria en el caso del traductor de castellano, debido a una estructura de diccionario monolingüe de castellano distinta del de francés, en donde abundan mf y sp). Así la estructura queda en:
- t1x
- antaux1_t2x: básicamente, agrupación de sintagmas en otros mayores
- antaux2_t2x: básicamente, CD con preposición a, ciertas preposiciones y predicativos
- antaux3_t2x: básicamente, pronombres relativos
- antaux4_t2x: básicamente, tiempos verbales en subordinadas
- antaux5_t2x: básicamente, generación del pronombre sujeto y tratamiento de oraciones de relativo
- t2x: básicamente, generación del acusativo
- t3x
- Los aspectos en los que más se ha trabajado en la nueva versión son:
- Tratamiento de verbos con pronombres para distinguir entre formas de pasiva refleja, pronominales, transitividad (komenci/komenciĝi), agentividad (morti/mortigi), no agentividad (rompi/rompiĝi), reciprocidad (Juan y Pedro no se hablan) y redundancia/refuerzo (se come un buey). Queda mucho por mejorar, pero este tratamiento resulta imprescidible para obtener una cierta calidad de traducción.
- Tratamiento de los complementos directos introducidos por la preposición a.
- Mejoras en la generación/no generación del "acusativo de dirección".
- Mejoras en la generación/no generación del acusativo.
- Mejoras en el tratamiento del predicativo.
- Mejoras en las dobles negaciones (no como nunca, no como nada, etc.).
- Se pasa de una transferencia de tres niveles a una multinivel, tal como ya se ha hecho, por lo menos, en inglés > esperanto y francés > esperanto. Básicamente, se ha seguido la estructura del traductor de francés a esperanto, añadiendo el paso antaux5_t2x (para la generación del pronombre sujeto) y eliminando el paso post_t2x (que trata del género y el número cuando es ambiguo, cosa innecesaria en el caso del traductor de castellano, debido a una estructura de diccionario monolingüe de castellano distinta del de francés, en donde abundan mf y sp). Así la estructura queda en:
Tablas resumen[edit]
Léxico[edit]
categoría | 01/2008 | 11/2010 | 09/2011 |
---|---|---|---|
total | 12.300 | 18.480 | 48.406 |
nombres comunes | 7.090 | 9.079 | 14.013 |
nombres propios | 349 | 488 | 21.826 |
verbos | 2.012 | 2.561 | 3.726 |
adjetivos | 1.818 | 2.997 | 4.960 |
adverbios | 433 | 2.693 | 3.089 |
conjunciones | 108 | 128 | |
preposiciones | 166 | 234 | |
otros | 598 | 388 | 430 |
cobertura | 88,6%1 | - | 92,8%2 |
1 Corpus periodístico
2 Wikipedia
Reglas de desambiguación y transferencia[edit]
11/2010 | 09/2011 | |
---|---|---|
rlx | - | 282 |
total reglas transferencia | 234 | 437 |
t1x | 174 | 302 |
antaux1_t2x | - | 35 |
antaux2_t2x | - | 22 |
antaux3_t2x | - | 11 |
antaux4_t2x | - | 4 |
antaux5_t2x | - | 21 |
t2x | 59 | 41 |
t3x | 1 | 1 |
Calidad[edit]
Traducción del Eurotopics 30/09/2011
Statistics about input files
Number of words in reference: 2943
Number of words in test: 3024
Number of unknown words (marked with a star) in test: 117
Percentage of unknown words: 3,87 %
Results when removing unknown-word marks (stars)
Edit distance: 599
Word error rate (WER): 20,35 %
Number of position-independent correct words: 2497
Position-independent word error rate (PER): 17,91 %
Ver detalle de los datos de calidad
Ver también[edit]
Notas sobre las versiones del traductor de francés a esperanto