Difference between revisions of "Módulo de procesamiento de expresiones separables"

From Apertium
Jump to navigation Jump to search
(New page: Módulo de procesamiento de expresiones separables apertium-sep (Separable Expression Processing). Se trata de añadir un módulo al traductor que permita tratar más fácilmente las expr...)
 
m (Reverted edits by Umbot obtained (Talk) to last revision by Francis Tyers)
 
(6 intermediate revisions by 2 users not shown)
Line 1: Line 1:
{{TOCD}}
Módulo de procesamiento de expresiones separables apertium-sep (Separable Expression Processing).
Módulo de procesamiento de expresiones separables apertium-sep (Separable Expression Processing).


Se trata de añadir un módulo al traductor que permita tratar más fácilmente las expresiones separables de algunas lenguas. En particular, servirá para identificar y tratar de forma sistemática los “phrasal verbs” del inglés, pero también otras construcciones de otras lenguas.
Se trata de añadir un módulo al traductor que permita tratar más fácilmente las expresiones separables de algunas lenguas. En particular, servirá para identificar y tratar de forma sistemática los “phrasal verbs” del inglés, pero también otras construcciones de otras lenguas.


Localización
==Localización==


Hay dos alternativas:
Hay dos alternativas:
Line 10: Line 11:
*Se ve como una generalización del módulo pretransfer, y su funcionamiento por defecto con un fichero de especificaciones vacío es idéntico al del pretransfer. Tiene sentido porque los problemas que se resuelven son de la misma naturaleza.
*Se ve como una generalización del módulo pretransfer, y su funcionamiento por defecto con un fichero de especificaciones vacío es idéntico al del pretransfer. Tiene sentido porque los problemas que se resuelven son de la misma naturaleza.


Entrada
;Entrada


Texto procedente del pretransfer, es decir, texto etiquetado y con las unidades léxicas separadas.
Texto procedente del pretransfer, es decir, texto etiquetado y con las unidades léxicas separadas.


Salida
;Salida


Texto con las unidades separables unidas, y las partículas centrales pasadas a la derecha (después) de las nuevas unidades separables unidas.
Texto con las unidades separables unidas, y las partículas centrales pasadas a la derecha (después) de las nuevas unidades separables unidas.
Line 22: Line 23:
{|class="wikitable"
{|class="wikitable"
! Entrada !! Salida
! Entrada !! Salida
|-
|take the cat out || take_out the cat
|take the cat out || take_out the cat
|-
|-
Line 29: Line 31:
|}
|}


Especificación:
==Especificación==


La especificación del módulo se hará en un fichero XML con los patrones detectados y cuál será la
La especificación del módulo se hará en un fichero XML con los patrones detectados y cuál será la
Line 63: Line 65:
</pre>
</pre>


Observaciones:
==Observaciones==


*Se entiende que las etiquetas de la forma unida de la expresión separables son las de la primera palabra por defecto.
*Se entiende que las etiquetas de la forma unida de la expresión separables son las de la primera palabra por defecto.
*Las secuencias se copian al final, por orden.
*Las secuencias se copian al final, por orden.
*Si se entiende que es una generalización del pretransfer, para el resto del texto se entiende que funciona igual que funcionaba el pretransfer. Una sección “expressions” vacía implica que el módulo funciona igual que el antiguo pretransfer.
*Si se entiende que es una generalización del pretransfer, para el resto del texto se entiende que funciona igual que funcionaba el pretransfer. Una sección “expressions” vacía implica que el módulo funciona igual que el antiguo pretransfer.
*En las <declarations>, se pueden anidar infinitamente <list-decl> con <sequence-decl>.
*En las <code><declarations></code>, se pueden anidar infinitamente <code><list-decl></code> con <code><sequence-decl></code>.

==Preguntas==

* Que vamos a hacer con expresiones "embedded", tipo:

::"'''Take''' the one that <u>broke</u> it <u>apart</u> '''away'''"
::Take away the one that break apart it.


==Véase tambíen==
==Véase tambíen==
Line 74: Line 83:
* [[Separable verbs]]
* [[Separable verbs]]


[[Category:Development]]
[[Category:Multiwords]]

Latest revision as of 17:29, 24 February 2011

Módulo de procesamiento de expresiones separables apertium-sep (Separable Expression Processing).

Se trata de añadir un módulo al traductor que permita tratar más fácilmente las expresiones separables de algunas lenguas. En particular, servirá para identificar y tratar de forma sistemática los “phrasal verbs” del inglés, pero también otras construcciones de otras lenguas.

Localización[edit]

Hay dos alternativas:

  • Tras el módulo pretransfer y antes del módulo transfer. Antes, por tanto, de la transferencia léxica.
  • Se ve como una generalización del módulo pretransfer, y su funcionamiento por defecto con un fichero de especificaciones vacío es idéntico al del pretransfer. Tiene sentido porque los problemas que se resuelven son de la misma naturaleza.
Entrada

Texto procedente del pretransfer, es decir, texto etiquetado y con las unidades léxicas separadas.

Salida

Texto con las unidades separables unidas, y las partículas centrales pasadas a la derecha (después) de las nuevas unidades separables unidas.

Algunos ejemplos:

Entrada Salida
take the cat out take_out the cat
put you out put_out_1 out
put the cat out put_out_2 the cat

Especificación[edit]

La especificación del módulo se hará en un fichero XML con los patrones detectados y cuál será la forma unida de la expresión separable.

Ejemplo (tentativo):

<sep>
<declarations>
  <sequence-decl n="pronoun">
    <word tags="prn.*"/>
  </sequence-decl>
  <sequence-decl n="SN1">
    <word tags="det.*"/>
    <word tags="adj.*"/>
    <word tags="n.*"/>
  <sequence-decl>
  <list-decl n=”verbs_out”>
    <word lemma=”take” tags=”vblex.*”/>
    <word lemma=”put” tags=”vblex.*”/>
    <!-- ...  -->
  </list>
</declarations>
<expressions>
  <expression name="take out 1" output="take_out">
    <list n="verbs_out”/>
    <sequence n="SN1"/>
    <word lemma="out" tags="adv.*"/>
</expressions>
</sep>

Observaciones[edit]

  • Se entiende que las etiquetas de la forma unida de la expresión separables son las de la primera palabra por defecto.
  • Las secuencias se copian al final, por orden.
  • Si se entiende que es una generalización del pretransfer, para el resto del texto se entiende que funciona igual que funcionaba el pretransfer. Una sección “expressions” vacía implica que el módulo funciona igual que el antiguo pretransfer.
  • En las <declarations>, se pueden anidar infinitamente <list-decl> con <sequence-decl>.

Preguntas[edit]

  • Que vamos a hacer con expresiones "embedded", tipo:
"Take the one that broke it apart away"
Take away the one that break apart it.

Véase tambíen[edit]