Difference between revisions of "Talk:Parallel corpus pruning"
		
		
		
		
		
		
		Jump to navigation
		Jump to search
		
				
		
		
		
		
		
		
		
	
|  (Removing all content from page) | |||
| Line 1: | Line 1: | ||
| <pre> | |||
| (10:38:51) @: Hiciste algo al final de lo de descartar frases de un corpus paralelo? | |||
| (10:39:02) +: aun no | |||
| (10:39:03) @: La verdad es que es un problema bastante interesante | |||
| (10:39:12) +: este mes estoy con el bretón | |||
| (10:39:17) @: vale | |||
| (10:39:22) +: queremos hacer un traductor en un mes | |||
| (10:39:26) +: entonces, tengo mucho trabajo :) | |||
| (10:39:26) @: coño | |||
| (10:39:31) @: si si | |||
| (10:39:47) +: sí el problema es interesante | |||
| (10:39:55) @: yo había pensado en usar la fertilidad | |||
| (10:39:56) +: estoy esperando para que me den dos corpus | |||
| (10:40:08) @: cada par de lenguas debe tener una fertilidad típica | |||
| (10:40:20) @: pequeña ewntre lenguas emparentadas | |||
| (10:40:26) +: (de islandés y faroés... alineados y etiquetados) | |||
| (10:40:30) @: ahm | |||
| (10:40:30) +: sí | |||
| (10:40:38) @: combinando la fertilidad | |||
| (10:40:44) @: y las papalbras que han quedado desalineadas | |||
| (10:40:53) @: creo que se podría hacer algo | |||
| (10:40:59) @: aunque no tengo claro como | |||
| (10:41:10) @: bueno | |||
| (10:41:16) @: te dejo con el bretón | |||
| (10:41:21) +: hmm | |||
| (10:41:32) @: si se me ocurre algo te lo digo | |||
| (10:41:45) +: qué te parece si pongo algo sobre todo eso en el wiki | |||
| (10:41:52) +: una página de discusión | |||
| (10:41:58) +: para que no olvide | |||
| (10:42:03) @: bien | |||
| (10:42:14) @: pero no lo veo muy relacionado con Apertium | |||
| (10:42:17) @: más bien con SMT | |||
| (10:42:24) +: no, es muy relacionado | |||
| (10:42:34) +: te digo por qué | |||
| (10:42:51) +: si queremos hacer traductores de manera más rápido | |||
| (10:43:10) +: tenemos que encontrar una manera de hacer reglas y diccionarios bilingües | |||
| (10:43:27) +: los resultados de retratos no están bien | |||
| (10:43:34) +: (para los bilingües) | |||
| (10:43:40) @: vale | |||
| (10:43:46) +: porque si usas un corpus tipo europarl | |||
| (10:43:50) @: caca | |||
| (10:44:00) +: dónde las frases muchas veces no tienen mucho que ver | |||
| (10:44:09) @: lo he sufrido con el par es-pt | |||
| (10:44:10) +: salen todos tipos de barbaridades | |||
| (10:44:31) @: vale pues ponlo en el wiki y mandame el enlace | |||
| (10:44:38) +: si podemos descartar 70% del corpus y solo hacer los bilingües con la parte buena (si haya) | |||
| (10:44:38) @: por si se me ocurre algo añadirlo | |||
| (10:44:46) +: sería muy útil | |||
| </pre> | |||

