Difference between revisions of "Talk:Parallel corpus pruning"
		
		
		
		
		
		
		Jump to navigation
		Jump to search
		
				
		
		
		
		
		
		
		
	
| Line 1: | Line 1: | ||
| <pre> | |||
| > Hola, | |||
| >  | |||
| > Conoces algun(os) artículo(s) que tratan de hacer un pruning de un | |||
| > corpus paralelo para mejorar los resultados de la inducción de reglas de | |||
| > transferencía (o de diccionarios bilingües) ? | |||
| >  | |||
| > Por ejemplo, para descartar frases que no son muy monotonas. Ejemplos: | |||
| >  | |||
| >  fo: 1  Í upphavi skapti Gud himmal og jørð. | |||
| >  is: 1  Í upphafi skapaði Guð himin og jörð. | |||
| >  | |||
| > (Bien, monotona) | |||
| >  | |||
| >  fo: 7  Gud gjørdi tá hvølvið og skilti vatnið undir  | |||
| >         hvølvinum frá vatninum yvir hvølvinum.  | |||
| >         Og so varð. | |||
| >  is: 7  Þá gjörði Guð festinguna og greindi vötnin sem voru undir | |||
| >         festingunni frá þeim vötnum sem voru yfir henni.  | |||
| >         Og það varð svo. | |||
| >  | |||
| > (No tan bien -- el subjeto (Gud/Guð) ha cambiado de posición -- y es una | |||
| > diferencia de estilo, no de sintaxis -- no se ve claramente el | |||
| > alineamiento) | |||
| >  | |||
| > Fran | |||
| No conozco ninguno.  | |||
| En mi artículo sobre la inferencia de reglas yo usaba la información de | |||
| alineamiento para descartar "phrases" que no  podían reproducirse con el | |||
| sistema de TA. Básicamente lo mismo que el artículo que te comenté que | |||
| había escrito con Andy para la EAMT 2009. | |||
| Se me ocurre que uses información de POS para determinar si un | |||
| alineamiento no monótono tiene que ser descartado o no, básicamente | |||
| recogiendo estadísticas del corpus. Piensa que porque un alineamiento no | |||
| sea monótono no tiene por qué ser erróneo. | |||
| </pre> | |||
| Line 89: | Line 50: | ||
| (10:44:38) @: por si se me ocurre algo añadirlo | (10:44:38) @: por si se me ocurre algo añadirlo | ||
| (10:44:46) +: sería muy útil | (10:44:46) +: sería muy útil | ||
| </pre> | |||
| <pre> | |||
| También podrías usar el ratio de palabras no alineadas  | |||
| (num. palabras no alineadas/num. palabras frase). Si la traducción es  | |||
| libre imagino que habrás más palabras sin alinear (esto habría que  | |||
| comprobarlo). Para esto primero tendrías que calcular el ratio de  | |||
| palabras no alineadas típico del par de lenguas en cuestión. | |||
| </pre> | </pre> | ||
Revision as of 11:26, 18 March 2009
(10:38:51) @: Hiciste algo al final de lo de descartar frases de un corpus paralelo? (10:39:02) +: aun no (10:39:03) @: La verdad es que es un problema bastante interesante (10:39:12) +: este mes estoy con el bretón (10:39:17) @: vale (10:39:22) +: queremos hacer un traductor en un mes (10:39:26) +: entonces, tengo mucho trabajo :) (10:39:26) @: coño (10:39:31) @: si si (10:39:47) +: sí el problema es interesante (10:39:55) @: yo había pensado en usar la fertilidad (10:39:56) +: estoy esperando para que me den dos corpus (10:40:08) @: cada par de lenguas debe tener una fertilidad típica (10:40:20) @: pequeña ewntre lenguas emparentadas (10:40:26) +: (de islandés y faroés... alineados y etiquetados) (10:40:30) @: ahm (10:40:30) +: sí (10:40:38) @: combinando la fertilidad (10:40:44) @: y las papalbras que han quedado desalineadas (10:40:53) @: creo que se podría hacer algo (10:40:59) @: aunque no tengo claro como (10:41:10) @: bueno (10:41:16) @: te dejo con el bretón (10:41:21) +: hmm (10:41:32) @: si se me ocurre algo te lo digo (10:41:45) +: qué te parece si pongo algo sobre todo eso en el wiki (10:41:52) +: una página de discusión (10:41:58) +: para que no olvide (10:42:03) @: bien (10:42:14) @: pero no lo veo muy relacionado con Apertium (10:42:17) @: más bien con SMT (10:42:24) +: no, es muy relacionado (10:42:34) +: te digo por qué (10:42:51) +: si queremos hacer traductores de manera más rápido (10:43:10) +: tenemos que encontrar una manera de hacer reglas y diccionarios bilingües (10:43:27) +: los resultados de retratos no están bien (10:43:34) +: (para los bilingües) (10:43:40) @: vale (10:43:46) +: porque si usas un corpus tipo europarl (10:43:50) @: caca (10:44:00) +: dónde las frases muchas veces no tienen mucho que ver (10:44:09) @: lo he sufrido con el par es-pt (10:44:10) +: salen todos tipos de barbaridades (10:44:31) @: vale pues ponlo en el wiki y mandame el enlace (10:44:38) +: si podemos descartar 70% del corpus y solo hacer los bilingües con la parte buena (si haya) (10:44:38) @: por si se me ocurre algo añadirlo (10:44:46) +: sería muy útil

