Exemples de règles de transfert

Cette page est destinée à compléter la page Introduction aux règles de transfert. Les exemples utilisés concernent la paire apertium-eo-fr. Il s'agit d'une paire le langues validée pour le sens de traduction français → espéranto. Par contre, le sens de traduction espéranto → français n'a pas été implémenté par le développeur initial. C'est un autre développeur, totalement débutant pour l'écriture des règles de transfert qui a choisi de le faire. Les exemples fournis concernent les toutes premières règles écrites pour traduire un groupe d'un, deux ou trois mots espéranto en un groupe de deux ou trois mots français.

Cette page ne concerne que l'écriture du fichier de règles destiné à être utilisé par l'outil apertium-transfer dont le suffixe est .t1x. L'écriture de balises destinée à la fragmentation dans le cadre d'un transfert en 3 étapes n'y est pas abordé.

Les différentes étapes d'une traduction avec apertium

Commençons par lister les différents programmes qui sont exécutés pour une traduction.

Programme	Rôle	Langues concernées
Déformatage	Permet de marquer des zones du texte source à ne pas traduire. Par exemple, on ne traduit pas dans une autre langue les balises HTML, mais seulement le texte de la page web.	Les mêmes logiciels sont utilisés pour toutes les paires de langues. C'est le format des données à traduire qui emmènera à utiliser tel ou tel déformateur.
Analyse	Chaque mot du texte source est décomposé en un lemme suivi du type de mot et de ses attributs (genre, nombre, personne et temps pour un verbe ...). Pour certains mots, plusieurs analyses sont possibles. Dans ce cas, elles sont toutes envoyées en sortie.	Valable pour toutes les langues, elle fait appel au dictionnaire morphologique de la langue source.
Désambiguïsation	Lorsqu'un mot dispose de plusieurs analyses, cette étape permet de n'en conserver qu'une seule.	Valable pour toutes les langues, elle fait appel à un fichier de suffixe `.prob` . Pour les langues non ambiguës comme l'espéranto, cette étape est néanmoins nécessaire pour supprimer la forme de surface de chaque mot analysé (pré-formatage pour l'étape de transfert).
Pré-transfert	Traitement des multi-mots avant l'étape de transfert.	Toutes langues. Ne nécessite pas de fichier de données particulier.
Transfert	Transforme les analyses issues de la langue source en leur version traduite dans la langue cible.	Valable pour toutes les paires de langues, il fait appel au dictionnaire bilingue et au fichier de transfert de suffixe `.t1x` .
Traitement inter-fragments	Permet des traitements sur un groupe de mots (le sujet, un complément ...) Comme indiqué plus haut, on ne s'occupera pas de cette étape (ni de la suivante).	Utilisé à priori pour simplifier l'étape de transfert, il nécessite de rajouter quelques balises à l'étape de transfert. Il fait appel à un fichier de suffixe `.t2x` et éventuellement à d'autres fichiers si on exécute plusieurs passes de ce type.
Post-fragmentation	Fin du ou des traitement(s) inter-fragments	Nécessaire si un ou plusieurs traitements inter-fragments ont été exécutés. Elle fait appel à un fichier de suffixe `.t3x`
Génération	Génère la forme de surface des mots de la langue cible à partir de la décomposition en lemme + attributs obtenue suite aux étapes précédentes.	Valable pour toutes les paires de langues, elle fait appel au dictionnaire morphologique de la langue cible.
Post-génération	Permet des corrections orthographiques entre mots voisins lorsqu'il y a des cas particuliers non traités par la génération.	Utilisé pour beaucoup de langues cibles (dont le français), peut être pas pour toutes.
Reformatage	Remet les données traduites au format du document source.	Les mêmes logiciels sont utilisés pour toutes les paires de langues. Il existe un reformateur pour chaque déformateur disponible bien que tous les reformateurs fassent un traitement similaire.

La page Préparation pour utiliser les outils de transfert donne un exemple de la manière dont une phrase espagnole est transformée à chaque étape du traitement pour aboutir finalement à une traduction en anglais.

Comment trouver ce qu'on doit faire

Fondamentalement, l'étape de transfert part d'une analyse désambiguïsée du texte en langue source pour fournir un équivalent dans la langue cible. L'étape de génération effectue alors le traitement inverse de l'analyse. Ça a une conséquence : il faut que les données fournies au générateur correspondent exactement à ce que donnerait une nouvelle analyse du texte traduit dans la langue cible. Sinon, la génération ne sera que partielle avec des # apparaissant au debut de certains mots qui seront alors présentés sous la forme de lemmes.

Exemple :

On veut traduire en français les 3 mots espéranto :

la aŭtomata traduko

Après analyse et désambiguïsation, on obtient :

^la<det><def><sp>$ ^aŭtomata<adj><sg><nom>$ ^traduko<n><sg><nom>$

Une étape de transfert lexical (utilisant seulement le dictionnaire bilingue) donnerait :

^le<det><def><sp>$ ^automatique<adj><sg><nom>$ ^traduction<n><f><sg><nom>$

alors que le morceau de phrase que l'on veut obtenir en français est :

la traduction automatique

et en analysant ce morceau de phrase, on obtient :

^le<det><def><f><sg>$ ^traduction<n><f><sg>$ ^automatique<adj><mf><sg>$

Il faudra donc dans l'étape de transfert de structure réaliser la transformation suivante :

Origine :

^le<det><def><sp>$ ^automatique<adj><sg><nom>$ ^traduction<n><f><sg><nom>$

Résultat :

^le<det><def><f><sg>$ ^traduction<n><f><sg>$ ^automatique<adj><mf><sg>$

Pour cela, on écrira des règles de transferts, dont le but est d'ajouter ou de supprimer certaines balises dans les descriptions de mots, et éventuellement d'intervertir des mots.

Structure d'un fichier .t1x

Le fichier contenant les règles de transfert a comme suffixe .t1x . Ce fichier est composé de plusieurs sections obligatoires et peut contenir d'autres sections facultatives. Chacune des sections devra contenir au moins un élément.

<?xml version="1.0" encoding="UTF-8"?>
<transfer>
   <section-def-cats>
      ..........
   </section-def-cats>

   <section-def-attrs>
      ..........
   </section-def-attrs>

   <section-def-vars>
      ..........
   </section-def-vars>

   <section-def-macros>
      ..........
   </section-def-macros>

   <section-rules>
      ..........
   </section-rules>
</transfer>

Section def-cats

La section def-cats est obligatoire. Elle permet de déclarer des catégories de mots que l'on va rechercher pour appliquer une règle de transfert particulière. Il peut s'agir de mots simples (un article (déterminant), un nom, un adjectif, un verbe, ...) ou de choses un peu plus compliquées comme un nom possédant dans sa description la balise <nom> (nominatif) signifiant qu'il fait partie du sujet de la phrase.

Cette section contient un ou plusieurs éléments qui ont la structure suivante :

   <def-cat n="nom_de_ce_qu'on_veut_décrire">
     <cat-item tags="sa_description"/>
     .... (il peut y avoir une ou plusieurs balises <cat-item .../>)
   </def-cat>

Section def-attrs

La section def-attrs est obligatoire. Elle permet de regrouper par fonctionnalités des noms d'attributs de mots définis sans la section sdefs d'un dictionnaire morphologique. Par exemple, on regroupera dans cette section toutes les balises correspondant au :

genre d'un mot
nombre d'un mot (singulier, pluriel, ...)
personne d'un verbe
temps d'un verbe
...

Cette section contient un ou plusieurs éléments qui ont la structure suivante :

   <def-attr n="nom_d'une_liste_d'attributs_jouant_un_rôle_commun">
     <attr-item tags="un_attribut_de_la_section_sdef_d'un_dictionnaire"/>
     .... (on a plusieurs balises <attr-item .../> autant que de valeurs
           possibles pour l'attribut)
   </def-attr>

Section def-vars

La section def-vars est obligatoire et doit comporter au moins un élément respectant la syntaxe <def-var n="..."/> . Il s'agit de lister les variables globales utilisées dans les règles de transferts. Toutefois, pour les règles décrites dans cette page, nous n'aurons besoin d'aucune de ces variables.

Section def-macros

La section def-macros est facultative. Néanmoins, elle sera très utile pour écrire des fichiers de transfert moins longs en évitant de dupliquer à l'identique (ou presque) un même traitement dans plusieurs règles de transfert.

Cette section contient un ou plusieurs éléments qui ont la structure suivante :

   <def-macro n="nom_de_la_macro" npar="nombre_de_paramètres">
     .... (le code de la macro)
   </def-macro>

Section rules

Enfin, La section rules est obligatoire. C'est la plus longue du fichier de transfert et celle qui justifie son existence. Elle permet en effet de définir les traitements à effectuer pour traduire des groupes de mots (ou quelquefois des mots isolés, comme on le verra).

Cette section contient un ou plusieurs éléments qui ont la structure suivante :

   <rule>
     <pattern>
       <pattern-item n="nom_défini_comme_def-cat_correspondant_au_premier_mot_à_traiter"/>
       .... (autant de balises <pattern-item ..../> que de mots qu'on veut traiter ensemble)
     </pattern>
     <action>
       .... (description de la règle de transfert)
     </action>
   </rule>