Difference between revisions of "Talk:Parallel corpus pruning"

From Apertium
Jump to navigation Jump to search
(you want papers, you got papers)
 
(5 intermediate revisions by 2 users not shown)
Line 1: Line 1:
  +
* One of the ways would be to discard phrases which can't be produced by the MT system (presumably in terms of lemma matches).
<pre>
 
> Hola,
 
>
 
> Conoces algun(os) artículo(s) que tratan de hacer un pruning de un
 
> corpus paralelo para mejorar los resultados de la inducción de reglas de
 
> transferencía (o de diccionarios bilingües) ?
 
>
 
> Por ejemplo, para descartar frases que no son muy monotonas. Ejemplos:
 
>
 
> fo: 1 Í upphavi skapti Gud himmal og jørð.
 
> is: 1 Í upphafi skapaði Guð himin og jörð.
 
>
 
> (Bien, monotona)
 
>
 
> fo: 7 Gud gjørdi tá hvølvið og skilti vatnið undir
 
> hvølvinum frá vatninum yvir hvølvinum.
 
> Og so varð.
 
> is: 7 Þá gjörði Guð festinguna og greindi vötnin sem voru undir
 
> festingunni frá þeim vötnum sem voru yfir henni.
 
> Og það varð svo.
 
>
 
> (No tan bien -- el subjeto (Gud/Guð) ha cambiado de posición -- y es una
 
> diferencia de estilo, no de sintaxis -- no se ve claramente el
 
> alineamiento)
 
>
 
> Fran
 
   
  +
Surely the easiest way to determine this is to invoke the MT system?
   
  +
Alternatively, apertium-transfer-tools has a mechanism for pruning alignments based on lemma matches (along with a means of specifying stop words)
No conozco ninguno.
 
   
  +
::Yeah, I think that is what Felipe was talking about. If you can write more about it, do... save me cracking out the papers. ;) - [[User:Francis Tyers|Francis Tyers]] 17:05, 18 March 2009 (UTC)
En mi artículo sobre la inferencia de reglas yo usaba la información de
 
alineamiento para descartar "phrases" que no podían reproducirse con el
 
sistema de TA. Básicamente lo mismo que el artículo que te comenté que
 
había escrito con Andy para la EAMT 2009.
 
   
  +
:::Felipe Sánchez-Martínez. Using unsupervised corpus-based methods to build rule-based machine translation systems. PhD thesis, June 2008, Departament de Llenguatges i Sistemes Infomàtics, Universitat d'Alacant, Spain. [http://www.dlsi.ua.es/~fsanchez/pub/thesis/thesis-sin.pdf PDF]
Se me ocurre que uses información de POS para determinar si un
 
  +
::::Chapter 5, particularly 'TL Restrictions'
alineamiento no monótono tiene que ser descartado o no, básicamente
 
  +
:::Felipe Sánchez-Martínez, Mikel L. Forcada. Automatic induction of shallow-transfer rules for open-source machine translation. In Proceedings of the 11th Conference on Theoretical and Methodological Issues in Machine Translation (TMI 2007), p. 181-190, September 7-9, 2007, Skövde, Sweden. [http://www.dlsi.ua.es/~fsanchez/pub/pdf/sanchez07c.pdf PDF]
recogiendo estadísticas del corpus. Piensa que porque un alineamiento no
 
  +
::::See 'Filtering of the Alignment Templates' in Section 5.
sea monótono no tiene por qué ser erróneo.
 
  +
::: Enough? -- [[User:Jimregan|Jimregan]] 16:03, 20 March 2009 (UTC)
</pre>
 
   
  +
* Look at the ratio of unaligned words. The higher the ratio, the more likely the translation is "freer"
   
  +
It might be better to first consider P(e|f) of the POS alignments, before pruning based on ratio, to not discard lexicalised phrases.
<pre>
 
(10:38:51) @: Hiciste algo al final de lo de descartar frases de un corpus paralelo?
 
(10:39:02) +: aun no
 
(10:39:03) @: La verdad es que es un problema bastante interesante
 
(10:39:12) +: este mes estoy con el bretón
 
(10:39:17) @: vale
 
(10:39:22) +: queremos hacer un traductor en un mes
 
(10:39:26) +: entonces, tengo mucho trabajo :)
 
(10:39:26) @: coño
 
(10:39:31) @: si si
 
(10:39:47) +: sí el problema es interesante
 
(10:39:55) @: yo había pensado en usar la fertilidad
 
(10:39:56) +: estoy esperando para que me den dos corpus
 
(10:40:08) @: cada par de lenguas debe tener una fertilidad típica
 
(10:40:20) @: pequeña ewntre lenguas emparentadas
 
(10:40:26) +: (de islandés y faroés... alineados y etiquetados)
 
(10:40:30) @: ahm
 
(10:40:30) +: sí
 
(10:40:38) @: combinando la fertilidad
 
(10:40:44) @: y las papalbras que han quedado desalineadas
 
(10:40:53) @: creo que se podría hacer algo
 
(10:40:59) @: aunque no tengo claro como
 
(10:41:10) @: bueno
 
(10:41:16) @: te dejo con el bretón
 
(10:41:21) +: hmm
 
(10:41:32) @: si se me ocurre algo te lo digo
 
(10:41:45) +: qué te parece si pongo algo sobre todo eso en el wiki
 
(10:41:52) +: una página de discusión
 
(10:41:58) +: para que no olvide
 
(10:42:03) @: bien
 
(10:42:14) @: pero no lo veo muy relacionado con Apertium
 
(10:42:17) @: más bien con SMT
 
(10:42:24) +: no, es muy relacionado
 
(10:42:34) +: te digo por qué
 
(10:42:51) +: si queremos hacer traductores de manera más rápido
 
(10:43:10) +: tenemos que encontrar una manera de hacer reglas y diccionarios bilingües
 
(10:43:27) +: los resultados de retratos no están bien
 
(10:43:34) +: (para los bilingües)
 
(10:43:40) @: vale
 
(10:43:46) +: porque si usas un corpus tipo europarl
 
(10:43:50) @: caca
 
(10:44:00) +: dónde las frases muchas veces no tienen mucho que ver
 
(10:44:09) @: lo he sufrido con el par es-pt
 
(10:44:10) +: salen todos tipos de barbaridades
 
(10:44:31) @: vale pues ponlo en el wiki y mandame el enlace
 
(10:44:38) +: si podemos descartar 70% del corpus y solo hacer los bilingües con la parte buena (si haya)
 
(10:44:38) @: por si se me ocurre algo añadirlo
 
(10:44:46) +: sería muy útil
 
</pre>
 
   
  +
For example: 'copula noun le+prn.obj' -> 'prn.subj verb' in Irish->English would align 1-0 2-0 3-0 4-1, but would have a very high frequency. -- [[User:Jimregan|Jimregan]] 16:14, 18 March 2009 (UTC)
   
  +
:It's a good idea to take into account frequency too. - [[User:Francis Tyers|Francis Tyers]] 17:05, 18 March 2009 (UTC)
<pre>
 
También podrías usar el ratio de palabras no alineadas
 
(num. palabras no alineadas/num. palabras frase). Si la traducción es
 
libre imagino que habrás más palabras sin alinear (esto habría que
 
comprobarlo). Para esto primero tendrías que calcular el ratio de
 
palabras no alineadas típico del par de lenguas en cuestión.
 
 
</pre>
 

Latest revision as of 16:03, 20 March 2009

  • One of the ways would be to discard phrases which can't be produced by the MT system (presumably in terms of lemma matches).

Surely the easiest way to determine this is to invoke the MT system?

Alternatively, apertium-transfer-tools has a mechanism for pruning alignments based on lemma matches (along with a means of specifying stop words)

Yeah, I think that is what Felipe was talking about. If you can write more about it, do... save me cracking out the papers. ;) - Francis Tyers 17:05, 18 March 2009 (UTC)
Felipe Sánchez-Martínez. Using unsupervised corpus-based methods to build rule-based machine translation systems. PhD thesis, June 2008, Departament de Llenguatges i Sistemes Infomàtics, Universitat d'Alacant, Spain. PDF
Chapter 5, particularly 'TL Restrictions'
Felipe Sánchez-Martínez, Mikel L. Forcada. Automatic induction of shallow-transfer rules for open-source machine translation. In Proceedings of the 11th Conference on Theoretical and Methodological Issues in Machine Translation (TMI 2007), p. 181-190, September 7-9, 2007, Skövde, Sweden. PDF
See 'Filtering of the Alignment Templates' in Section 5.
Enough? -- Jimregan 16:03, 20 March 2009 (UTC)
  • Look at the ratio of unaligned words. The higher the ratio, the more likely the translation is "freer"

It might be better to first consider P(e|f) of the POS alignments, before pruning based on ratio, to not discard lexicalised phrases.

For example: 'copula noun le+prn.obj' -> 'prn.subj verb' in Irish->English would align 1-0 2-0 3-0 4-1, but would have a very high frequency. -- Jimregan 16:14, 18 March 2009 (UTC)

It's a good idea to take into account frequency too. - Francis Tyers 17:05, 18 March 2009 (UTC)