Difference between revisions of "Talk:Parallel corpus pruning"
Jump to navigation
Jump to search
(New page: <pre> (10:38:51) @: Hiciste algo al final de lo de descartar frases de un corpus paralelo? (10:39:02) +: aun no (10:39:03) @: La verdad es que es un problema bastante interesante (10:39:12...) |
|||
Line 47: | Line 47: | ||
(10:44:38) @: por si se me ocurre algo añadirlo |
(10:44:38) @: por si se me ocurre algo añadirlo |
||
(10:44:46) +: sería muy útil |
(10:44:46) +: sería muy útil |
||
</pre> |
|||
<pre> |
|||
También podrías usar el ratio de palabras no alineadas |
|||
(num. palabras no alineadas/num. palabras frase). Si la traducción es |
|||
libre imagino que habrás más palabras sin alinear (esto habría que |
|||
comprobarlo). Para esto primero tendrías que calcular el ratio de |
|||
palabras no alineadas típico del par de lenguas en cuestión. |
|||
</pre> |
</pre> |
Revision as of 12:50, 5 March 2009
(10:38:51) @: Hiciste algo al final de lo de descartar frases de un corpus paralelo? (10:39:02) +: aun no (10:39:03) @: La verdad es que es un problema bastante interesante (10:39:12) +: este mes estoy con el bretón (10:39:17) @: vale (10:39:22) +: queremos hacer un traductor en un mes (10:39:26) +: entonces, tengo mucho trabajo :) (10:39:26) @: coño (10:39:31) @: si si (10:39:47) +: sí el problema es interesante (10:39:55) @: yo había pensado en usar la fertilidad (10:39:56) +: estoy esperando para que me den dos corpus (10:40:08) @: cada par de lenguas debe tener una fertilidad típica (10:40:20) @: pequeña ewntre lenguas emparentadas (10:40:26) +: (de islandés y faroés... alineados y etiquetados) (10:40:30) @: ahm (10:40:30) +: sí (10:40:38) @: combinando la fertilidad (10:40:44) @: y las papalbras que han quedado desalineadas (10:40:53) @: creo que se podría hacer algo (10:40:59) @: aunque no tengo claro como (10:41:10) @: bueno (10:41:16) @: te dejo con el bretón (10:41:21) +: hmm (10:41:32) @: si se me ocurre algo te lo digo (10:41:45) +: qué te parece si pongo algo sobre todo eso en el wiki (10:41:52) +: una página de discusión (10:41:58) +: para que no olvide (10:42:03) @: bien (10:42:14) @: pero no lo veo muy relacionado con Apertium (10:42:17) @: más bien con SMT (10:42:24) +: no, es muy relacionado (10:42:34) +: te digo por qué (10:42:51) +: si queremos hacer traductores de manera más rápido (10:43:10) +: tenemos que encontrar una manera de hacer reglas y diccionarios bilingües (10:43:27) +: los resultados de retratos no están bien (10:43:34) +: (para los bilingües) (10:43:40) @: vale (10:43:46) +: porque si usas un corpus tipo europarl (10:43:50) @: caca (10:44:00) +: dónde las frases muchas veces no tienen mucho que ver (10:44:09) @: lo he sufrido con el par es-pt (10:44:10) +: salen todos tipos de barbaridades (10:44:31) @: vale pues ponlo en el wiki y mandame el enlace (10:44:38) +: si podemos descartar 70% del corpus y solo hacer los bilingües con la parte buena (si haya) (10:44:38) @: por si se me ocurre algo añadirlo (10:44:46) +: sería muy útil
También podrías usar el ratio de palabras no alineadas (num. palabras no alineadas/num. palabras frase). Si la traducción es libre imagino que habrás más palabras sin alinear (esto habría que comprobarlo). Para esto primero tendrías que calcular el ratio de palabras no alineadas típico del par de lenguas en cuestión.