User:Jimregan/Luis' email

From Apertium
Jump to navigation Jump to search

English

Hi,

I'm writing this email to all of the students who are interested in developing the post-edition tool and who have already sent me a first proposal about the project. The idea of this email is to make some of the ideas that we have in mind for the project a bit more concrete so that it will serve as an inspiration and that you can improve your proposals.

I have divided the email in three parts: general description, available resources and articles.

If you have any questions, send me an email. I will try to connect intermittently tomorrow, in the morning and evening so that I can continue to work on your proposals. When we have something more solid, it would be good that we send it to the list that I showed before along with a small presentation so that the other mentors can give us feedback about the proposals.

Good luck,

Luis.

PS: Keep in mind that this email has been sent to all of you and that the cut&paste will probably end up in various proposals with exactly the same paragraphs. Your job is to work with them to form own proposal about these functionalities and resources or about others that you might come up with.

1) General description

- Previous proposals to develop a post-edition tool for Apertium have been focussed on codifying linguistic information statically and integrating it automatically in the Apertium pipeline without giving the user the option of working "on line" on the application of these rules. In this project we propose that a semi-automatic graphical post-edition interface be integrated in the Apertium pipeline. This interface would work on the translation without formatting (see the Apertium documentation on the Wiki 3.6 de-formatter and re-formatter) and that allows real-time human interaction where the system presents the user with linguistic information useful for the postedition process from different sources, configurable by the user. The tool will be able to be turned on or off dynamically, so that the "raw" machine translation can also be accessed.

- As we have mentioned, the main idea is to allow the integration of useful linguistic resources for post-edition of Apertium translations. Apertium already allows the inclusion of translation memories as a first pass to machine translation. Thus, our project will not consist of the typical post-edition tool that integrates translation memories, but it will consist of the intergration of a set of linguistic resources for some given languages and whose result will be a platform that allows the user to integrate their own resources, such as, for example, their reference dictionaries. For this, the user should be able to provide information of, for example, how to access the definition of a word in their reference dictionaries. From this point, and to make the tool more complete, we can focus on three languages: English, Spanish and Catalan. For each of these three languages we will identify (in collaboration with the language technicians at the Servei Lingüístic de la UOC) a set of resources to integrate.

- The Servei Lingüístic of the UOC translates X pages of text in Spanish, Catalan and English every year. To make these translations, the language technicians use the output of Apertium as a draft translation and they post-edit it to get to the final translation. In this process, they use a series of linguistic resources (dictionaries, linguistic guides, corpora, etc.) for each language which, in the experience of the technician, gives the information necessary to put the finishing touches on the draft that is produced by the system. With respect to the usability of a post-edition tool, the technicians of the Servei Lingüístic will play an important role in specifying what particular features the tool should have (for example, if it turns out to be useful to offer a view in which it is possible to see at the same time the original document and the draft translation on which work is done.

Spanish

Hola,

os escribo este correo a todos los alumnos que tenéis interés en desarrollar la herramienta de post-edición y que ya me habéis enviado una primera propuesta sobre el proyecto. La idea de éste correo es desarrollar un poco más algunas de las ideas que tenemos en mente para el proyecto de manera que os sirva de inspiración y podáis elaborar un poco más vuestra propuesta.

Lo he dividido en tres partes: descripción general, recursos disponibles para integrar y artículos a consultar.

Si tenéis cualquier duda, enviadme un correo. Procuraré conectarme tanto por la mañana como por la tarde de manera intermitente para seguir trabajando en vuestras propuestas. Cuando tengamos algo más cerrado convendría que lo enviáramos a la lista que os facilité anteriormente junto con una mini presentación para que otros mentores nos den feedback sobre las propuestas.

Ánimo, Luis

ps: Tened en cuenta que esto os lo envió a todos y que el cut&paste desembocaría en varias propuestas con los mismos párrafos así que lo suyo sería digerirlos y a partir de ellos elaborar vuestra propia propuesta sobre estas mismas funcionalidades y recursos o sobre otras que se os ocurran.


1) Descripción general

- Anteriores propuestas para desarrollar una herramienta de post-edición para Apertium se han centrado en codificar información lingüística de manera estática e integrarla de manera automática en el pipeline de Apertium sin dar la posibilidad al usuario de actuar en vivo sobre la aplicación de esas reglas. En este proyecto, proponemos la integración en el pipeline de Apertium de una interfaz gráfica de post-edición semiautomática que intervenga sobre la traducción sin formatear (mirar la documentación de Apertium que hay en el wiki: 3.6 de-formatter y re-formatter) y que posibilite una interacción humana en tiempo real donde el sistema le presente al usuario información lingüística útil para la postedición procedente de diferentes fuentes configurables por el usuario. Esta herramienta deberá contemplar la posibilidad de ser inhibida de manera dinámica, de manera que se obtenga directamente la traducción que ofrece el motor, sin post-edición humana.

- La idea central es, como hemos dicho, posibilitar la integración de recursos lingüísticos útiles para la post-edición de las traducciones de Apertium. Apertium ya incorpora la posibilidad de utilizar memorias de traducción como paso previo a la traducción automático, por tanto, nuestro proyecto no consistirá en la típica herramienta de post-edición que integra el uso de memorias de traducción sino que consistirá en la integración de un conjunto de recursos lingüísticos para unas lenguas determinadas y cuyo resultado será una plataforma que permita al usuario integrar sus propios recursos como por ejemplo, sus diccionarios de referencia. Para ello el usuario deberá proporcionar la información de, por ejemplo, cómo acceder a la definición de una palabra en sus diccionarios de referencia. A partir de esta base, y para completar la herramienta nos podemos centrar en tres lenguas: en, sp y ca. Para cada una de estas tres lenguas identificaremos (colaborando con los técnicos de lengua del Servei Lingüístic de la UOC) un conjunto de recursos lingüísticos a integrar.

- El SL de la UOC traduce cada año alrededor de X páginas de texto en castellano, catalán e inglés. Para abordar estas traducciones, los técnicos de lengua utilizan la salida de Apertium como borrador de traducción y los post-editan para llegar a la traducción final. En ese proceso, utilizan una serie de recursos lingüísticos (diccionarios, guías lingüísticas, corpus de consulta, etc.) para cada lengua que, sumado a la experiencia del técnico de lengua, aportan la información necesaria para redondear el borrador que ofrece el sistema. Respecto a la usabilidad de una herramienta de post-edición, los técnicos del SL también jugarán un papel importante al especificar qué particularidades debería tener la herramienta (por ejemplo, si resulta útil ofrecer una vista en la que se puedan visualizar simultáneamente el documento original y el borrador de traducción que se trabaja).


2) Recursos disponibles y susceptibles de ser integrados:

- Correctores ortográficos: el uso de un corrector ortográfico sobre la salida de Apertium puede parecer a priori un sin sentido ya que las entradas del diccionario no contienen errores ortográficos. Sin embargo, el corrector ortográfico se puede aplicar sobre las palabras desconocidas de la lengua origen de manera que detectemos errores tipográficos y podamos sugerir palabras en la lengua origen y sus potenciales traducciones en la lengua destino. Por ejemplo, si traducimos del castellano al inglés la frase: "Nosotros ondeamos la bañera blanca desde el principio", obtendremos la siguiente traducción "We waved the white *banera from the beginning" donde obtenemos la palabra 'banera' marcada con un asterisco como desconocida en castellano. Si aplicamos un corrector ortográfico (que implemente distancias de edición entre palabras y las consecuentes sugerencias) sobre el texto en castellano obtendremos una sugerencia que nos indicará que posiblemente la palabra que el usuario quería utilizar era "bandera". Esta información la podemos integrar con los diccionarios de apertium (o, de no encontrar la palabra allí, con el servicio de traducción de Google) de manera que la herramienta de postedición ofrezca en el texto de salida "flag" como alternativa a "*banera" y que sea el usuario quien valide dicha substitución.

- Correctores gramaticales: integración de LanguageTool

- Diccionarios en línea: RAE, DIEC, merrian-webster,.... (aquí los técnicos del SL tendrán mucho a decir). Una de las aplicaciones directas de los diccionarios es la resolución de la ambigüedad. Apertium ofrece la posibilidad de utilizar un modo de funcionamiento donde a partir de una palabra ambigua en el texto origen, se marcan las distintas alternativas de traducción en el texto de salida. Presentar la definición de cada una de las alternativas de traducción de una manera dinámica y no intrusa (por ejemplo, al pasar el puntero del ratón sobre cada una de ellas) puede acelerar el proceso de selección léxica que el usuario debe realizar.

- Corpus consultables en linea: hoy día existen multitud de recursos disponibles en linea que ofrecen la consulta de sus corpus textuales. De manera que se pueden consultar los usos de una palabra o expresión en corpora de referencia. Un ejemplo de estos servicios es SpringerOnLine

- Uso de la experiencia de los técnicos del SL para corregir errores en fenómenos lingüísticos en los que Apertium incurre inevitablemente. En este sentido las guías lingüísticas del SL de la UOC para catalán y castellano también son un valioso recursos de donde extraer información lingüística para su integración.

- Apertium-view/viewer/tolk: Dentro de la plataforma de Apertium, existen diversos aplicativos integrados en el pipeline del motor y que ofrecen una visualización de la información que maneja el sistema. Apertium-view, por ejemplo, puede representar una base para desarrollar el entorno de la herramienta de post-edición.

3) Artículos a consultar sobre postedición de la salida de un sistema automático:

- Tutorial sobre MT post-editing: http://www.mt-archive.info/MTS-2009-OBrien-ppt.pdf
- What is MT post-editing?: http://www.box.net/shared/dgfec2tmf5 / http://www.box.net/shared/s1xhg3eioy
- Artículo sobre utilidad de MT post-editing: http://accurapid.com/journal/42mt.htm