Difference between revisions of "Talk:Parallel corpus pruning"

From Apertium
Jump to navigation Jump to search
Line 1: Line 1:
<pre>
> Hola,
>
> Conoces algun(os) artículo(s) que tratan de hacer un pruning de un
> corpus paralelo para mejorar los resultados de la inducción de reglas de
> transferencía (o de diccionarios bilingües) ?
>
> Por ejemplo, para descartar frases que no son muy monotonas. Ejemplos:
>
> fo: 1 Í upphavi skapti Gud himmal og jørð.
> is: 1 Í upphafi skapaði Guð himin og jörð.
>
> (Bien, monotona)
>
> fo: 7 Gud gjørdi tá hvølvið og skilti vatnið undir
> hvølvinum frá vatninum yvir hvølvinum.
> Og so varð.
> is: 7 Þá gjörði Guð festinguna og greindi vötnin sem voru undir
> festingunni frá þeim vötnum sem voru yfir henni.
> Og það varð svo.
>
> (No tan bien -- el subjeto (Gud/Guð) ha cambiado de posición -- y es una
> diferencia de estilo, no de sintaxis -- no se ve claramente el
> alineamiento)
>
> Fran


No conozco ninguno.

En mi artículo sobre la inferencia de reglas yo usaba la información de
alineamiento para descartar "phrases" que no podían reproducirse con el
sistema de TA. Básicamente lo mismo que el artículo que te comenté que
había escrito con Andy para la EAMT 2009.


Se me ocurre que uses información de POS para determinar si un
alineamiento no monótono tiene que ser descartado o no, básicamente
recogiendo estadísticas del corpus. Piensa que porque un alineamiento no
sea monótono no tiene por qué ser erróneo.
</pre>




Line 89: Line 50:
(10:44:38) @: por si se me ocurre algo añadirlo
(10:44:38) @: por si se me ocurre algo añadirlo
(10:44:46) +: sería muy útil
(10:44:46) +: sería muy útil
</pre>


<pre>
También podrías usar el ratio de palabras no alineadas
(num. palabras no alineadas/num. palabras frase). Si la traducción es
libre imagino que habrás más palabras sin alinear (esto habría que
comprobarlo). Para esto primero tendrías que calcular el ratio de
palabras no alineadas típico del par de lenguas en cuestión.

</pre>
</pre>

Revision as of 11:26, 18 March 2009


(10:38:51) @: Hiciste algo al final de lo de descartar frases de un corpus paralelo?
(10:39:02) +: aun no
(10:39:03) @: La verdad es que es un problema bastante interesante
(10:39:12) +: este mes estoy con el bretón
(10:39:17) @: vale
(10:39:22) +: queremos hacer un traductor en un mes
(10:39:26) +: entonces, tengo mucho trabajo :)
(10:39:26) @: coño
(10:39:31) @: si si
(10:39:47) +: sí el problema es interesante
(10:39:55) @: yo había pensado en usar la fertilidad
(10:39:56) +: estoy esperando para que me den dos corpus
(10:40:08) @: cada par de lenguas debe tener una fertilidad típica
(10:40:20) @: pequeña ewntre lenguas emparentadas
(10:40:26) +: (de islandés y faroés... alineados y etiquetados)
(10:40:30) @: ahm
(10:40:30) +: sí
(10:40:38) @: combinando la fertilidad
(10:40:44) @: y las papalbras que han quedado desalineadas
(10:40:53) @: creo que se podría hacer algo
(10:40:59) @: aunque no tengo claro como
(10:41:10) @: bueno
(10:41:16) @: te dejo con el bretón
(10:41:21) +: hmm
(10:41:32) @: si se me ocurre algo te lo digo
(10:41:45) +: qué te parece si pongo algo sobre todo eso en el wiki
(10:41:52) +: una página de discusión
(10:41:58) +: para que no olvide
(10:42:03) @: bien
(10:42:14) @: pero no lo veo muy relacionado con Apertium
(10:42:17) @: más bien con SMT
(10:42:24) +: no, es muy relacionado
(10:42:34) +: te digo por qué
(10:42:51) +: si queremos hacer traductores de manera más rápido
(10:43:10) +: tenemos que encontrar una manera de hacer reglas y diccionarios bilingües
(10:43:27) +: los resultados de retratos no están bien
(10:43:34) +: (para los bilingües)
(10:43:40) @: vale
(10:43:46) +: porque si usas un corpus tipo europarl
(10:43:50) @: caca
(10:44:00) +: dónde las frases muchas veces no tienen mucho que ver
(10:44:09) @: lo he sufrido con el par es-pt
(10:44:10) +: salen todos tipos de barbaridades
(10:44:31) @: vale pues ponlo en el wiki y mandame el enlace
(10:44:38) +: si podemos descartar 70% del corpus y solo hacer los bilingües con la parte buena (si haya)
(10:44:38) @: por si se me ocurre algo añadirlo
(10:44:46) +: sería muy útil