Difference between revisions of "Talk:Parallel corpus pruning"

Revision as of 11:26, 18 March 2009

(10:38:51) @: Hiciste algo al final de lo de descartar frases de un corpus paralelo?
(10:39:02) +: aun no
(10:39:03) @: La verdad es que es un problema bastante interesante
(10:39:12) +: este mes estoy con el bretón
(10:39:17) @: vale
(10:39:22) +: queremos hacer un traductor en un mes
(10:39:26) +: entonces, tengo mucho trabajo :)
(10:39:26) @: coño
(10:39:31) @: si si
(10:39:47) +: sí el problema es interesante
(10:39:55) @: yo había pensado en usar la fertilidad
(10:39:56) +: estoy esperando para que me den dos corpus
(10:40:08) @: cada par de lenguas debe tener una fertilidad típica
(10:40:20) @: pequeña ewntre lenguas emparentadas
(10:40:26) +: (de islandés y faroés... alineados y etiquetados)
(10:40:30) @: ahm
(10:40:30) +: sí
(10:40:38) @: combinando la fertilidad
(10:40:44) @: y las papalbras que han quedado desalineadas
(10:40:53) @: creo que se podría hacer algo
(10:40:59) @: aunque no tengo claro como
(10:41:10) @: bueno
(10:41:16) @: te dejo con el bretón
(10:41:21) +: hmm
(10:41:32) @: si se me ocurre algo te lo digo
(10:41:45) +: qué te parece si pongo algo sobre todo eso en el wiki
(10:41:52) +: una página de discusión
(10:41:58) +: para que no olvide
(10:42:03) @: bien
(10:42:14) @: pero no lo veo muy relacionado con Apertium
(10:42:17) @: más bien con SMT
(10:42:24) +: no, es muy relacionado
(10:42:34) +: te digo por qué
(10:42:51) +: si queremos hacer traductores de manera más rápido
(10:43:10) +: tenemos que encontrar una manera de hacer reglas y diccionarios bilingües
(10:43:27) +: los resultados de retratos no están bien
(10:43:34) +: (para los bilingües)
(10:43:40) @: vale
(10:43:46) +: porque si usas un corpus tipo europarl
(10:43:50) @: caca
(10:44:00) +: dónde las frases muchas veces no tienen mucho que ver
(10:44:09) @: lo he sufrido con el par es-pt
(10:44:10) +: salen todos tipos de barbaridades
(10:44:31) @: vale pues ponlo en el wiki y mandame el enlace
(10:44:38) +: si podemos descartar 70% del corpus y solo hacer los bilingües con la parte buena (si haya)
(10:44:38) @: por si se me ocurre algo añadirlo
(10:44:46) +: sería muy útil

@@ Line 1: / Line 1: @@
-<pre>
-> Hola,
->
-> Conoces algun(os) artículo(s) que tratan de hacer un pruning de un
-> corpus paralelo para mejorar los resultados de la inducción de reglas de
-> transferencía (o de diccionarios bilingües) ?
->
-> Por ejemplo, para descartar frases que no son muy monotonas. Ejemplos:
->
->  fo: 1  Í upphavi skapti Gud himmal og jørð.
->  is: 1  Í upphafi skapaði Guð himin og jörð.
->
-> (Bien, monotona)
->
->  fo: 7  Gud gjørdi tá hvølvið og skilti vatnið undir
->         hvølvinum frá vatninum yvir hvølvinum.
->         Og so varð.
->  is: 7  Þá gjörði Guð festinguna og greindi vötnin sem voru undir
->         festingunni frá þeim vötnum sem voru yfir henni.
->         Og það varð svo.
->
-> (No tan bien -- el subjeto (Gud/Guð) ha cambiado de posición -- y es una
-> diferencia de estilo, no de sintaxis -- no se ve claramente el
-> alineamiento)
->
-> Fran
-No conozco ninguno.
-En mi artículo sobre la inferencia de reglas yo usaba la información de
-alineamiento para descartar "phrases" que no  podían reproducirse con el
-sistema de TA. Básicamente lo mismo que el artículo que te comenté que
-había escrito con Andy para la EAMT 2009.
-Se me ocurre que uses información de POS para determinar si un
-alineamiento no monótono tiene que ser descartado o no, básicamente
-recogiendo estadísticas del corpus. Piensa que porque un alineamiento no
-sea monótono no tiene por qué ser erróneo.
-</pre>
@@ Line 89: / Line 50: @@
 (10:44:38) @: por si se me ocurre algo añadirlo
 (10:44:46) +: sería muy útil
-</pre>
-<pre>
-También podrías usar el ratio de palabras no alineadas
-(num. palabras no alineadas/num. palabras frase). Si la traducción es
-libre imagino que habrás más palabras sin alinear (esto habría que
-comprobarlo). Para esto primero tendrías que calcular el ratio de
-palabras no alineadas típico del par de lenguas en cuestión.
 </pre>

Difference between revisions of "Talk:Parallel corpus pruning"

Revision as of 11:26, 18 March 2009

Navigation menu

Personal tools

Namespaces

Variants

Views

More

Search

Navigation

Tools