Difference between revisions of "Talk:Parallel corpus pruning"

From Apertium
Jump to navigation Jump to search
(you want papers, you got papers)
 
(6 intermediate revisions by 2 users not shown)
Line 1: Line 1:
* One of the ways would be to discard phrases which can't be produced by the MT system (presumably in terms of lemma matches).
<pre>
(10:38:51) @: Hiciste algo al final de lo de descartar frases de un corpus paralelo?
(10:39:02) +: aun no
(10:39:03) @: La verdad es que es un problema bastante interesante
(10:39:12) +: este mes estoy con el bretón
(10:39:17) @: vale
(10:39:22) +: queremos hacer un traductor en un mes
(10:39:26) +: entonces, tengo mucho trabajo :)
(10:39:26) @: coño
(10:39:31) @: si si
(10:39:47) +: sí el problema es interesante
(10:39:55) @: yo había pensado en usar la fertilidad
(10:39:56) +: estoy esperando para que me den dos corpus
(10:40:08) @: cada par de lenguas debe tener una fertilidad típica
(10:40:20) @: pequeña ewntre lenguas emparentadas
(10:40:26) +: (de islandés y faroés... alineados y etiquetados)
(10:40:30) @: ahm
(10:40:30) +: sí
(10:40:38) @: combinando la fertilidad
(10:40:44) @: y las papalbras que han quedado desalineadas
(10:40:53) @: creo que se podría hacer algo
(10:40:59) @: aunque no tengo claro como
(10:41:10) @: bueno
(10:41:16) @: te dejo con el bretón
(10:41:21) +: hmm
(10:41:32) @: si se me ocurre algo te lo digo
(10:41:45) +: qué te parece si pongo algo sobre todo eso en el wiki
(10:41:52) +: una página de discusión
(10:41:58) +: para que no olvide
(10:42:03) @: bien
(10:42:14) @: pero no lo veo muy relacionado con Apertium
(10:42:17) @: más bien con SMT
(10:42:24) +: no, es muy relacionado
(10:42:34) +: te digo por qué
(10:42:51) +: si queremos hacer traductores de manera más rápido
(10:43:10) +: tenemos que encontrar una manera de hacer reglas y diccionarios bilingües
(10:43:27) +: los resultados de retratos no están bien
(10:43:34) +: (para los bilingües)
(10:43:40) @: vale
(10:43:46) +: porque si usas un corpus tipo europarl
(10:43:50) @: caca
(10:44:00) +: dónde las frases muchas veces no tienen mucho que ver
(10:44:09) @: lo he sufrido con el par es-pt
(10:44:10) +: salen todos tipos de barbaridades
(10:44:31) @: vale pues ponlo en el wiki y mandame el enlace
(10:44:38) +: si podemos descartar 70% del corpus y solo hacer los bilingües con la parte buena (si haya)
(10:44:38) @: por si se me ocurre algo añadirlo
(10:44:46) +: sería muy útil
</pre>


Surely the easiest way to determine this is to invoke the MT system?


Alternatively, apertium-transfer-tools has a mechanism for pruning alignments based on lemma matches (along with a means of specifying stop words)
<pre>
También podrías usar el ratio de palabras no alineadas
(num. palabras no alineadas/num. palabras frase). Si la traducción es
libre imagino que habrás más palabras sin alinear (esto habría que
comprobarlo). Para esto primero tendrías que calcular el ratio de
palabras no alineadas típico del par de lenguas en cuestión.


::Yeah, I think that is what Felipe was talking about. If you can write more about it, do... save me cracking out the papers. ;) - [[User:Francis Tyers|Francis Tyers]] 17:05, 18 March 2009 (UTC)
</pre>

:::Felipe Sánchez-Martínez. Using unsupervised corpus-based methods to build rule-based machine translation systems. PhD thesis, June 2008, Departament de Llenguatges i Sistemes Infomàtics, Universitat d'Alacant, Spain. [http://www.dlsi.ua.es/~fsanchez/pub/thesis/thesis-sin.pdf PDF]
::::Chapter 5, particularly 'TL Restrictions'
:::Felipe Sánchez-Martínez, Mikel L. Forcada. Automatic induction of shallow-transfer rules for open-source machine translation. In Proceedings of the 11th Conference on Theoretical and Methodological Issues in Machine Translation (TMI 2007), p. 181-190, September 7-9, 2007, Skövde, Sweden. [http://www.dlsi.ua.es/~fsanchez/pub/pdf/sanchez07c.pdf PDF]
::::See 'Filtering of the Alignment Templates' in Section 5.
::: Enough? -- [[User:Jimregan|Jimregan]] 16:03, 20 March 2009 (UTC)

* Look at the ratio of unaligned words. The higher the ratio, the more likely the translation is "freer"

It might be better to first consider P(e|f) of the POS alignments, before pruning based on ratio, to not discard lexicalised phrases.

For example: 'copula noun le+prn.obj' -> 'prn.subj verb' in Irish->English would align 1-0 2-0 3-0 4-1, but would have a very high frequency. -- [[User:Jimregan|Jimregan]] 16:14, 18 March 2009 (UTC)

:It's a good idea to take into account frequency too. - [[User:Francis Tyers|Francis Tyers]] 17:05, 18 March 2009 (UTC)

Latest revision as of 16:03, 20 March 2009

  • One of the ways would be to discard phrases which can't be produced by the MT system (presumably in terms of lemma matches).

Surely the easiest way to determine this is to invoke the MT system?

Alternatively, apertium-transfer-tools has a mechanism for pruning alignments based on lemma matches (along with a means of specifying stop words)

Yeah, I think that is what Felipe was talking about. If you can write more about it, do... save me cracking out the papers. ;) - Francis Tyers 17:05, 18 March 2009 (UTC)
Felipe Sánchez-Martínez. Using unsupervised corpus-based methods to build rule-based machine translation systems. PhD thesis, June 2008, Departament de Llenguatges i Sistemes Infomàtics, Universitat d'Alacant, Spain. PDF
Chapter 5, particularly 'TL Restrictions'
Felipe Sánchez-Martínez, Mikel L. Forcada. Automatic induction of shallow-transfer rules for open-source machine translation. In Proceedings of the 11th Conference on Theoretical and Methodological Issues in Machine Translation (TMI 2007), p. 181-190, September 7-9, 2007, Skövde, Sweden. PDF
See 'Filtering of the Alignment Templates' in Section 5.
Enough? -- Jimregan 16:03, 20 March 2009 (UTC)
  • Look at the ratio of unaligned words. The higher the ratio, the more likely the translation is "freer"

It might be better to first consider P(e|f) of the POS alignments, before pruning based on ratio, to not discard lexicalised phrases.

For example: 'copula noun le+prn.obj' -> 'prn.subj verb' in Irish->English would align 1-0 2-0 3-0 4-1, but would have a very high frequency. -- Jimregan 16:14, 18 March 2009 (UTC)

It's a good idea to take into account frequency too. - Francis Tyers 17:05, 18 March 2009 (UTC)