Fichiers metadix et métaparadigmes

From Apertium
Revision as of 12:13, 7 October 2014 by Bech (talk | contribs) (Lien page anglaise)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

In English

Metadix, au pluriel metadixes (comme rencontré dans les fichiers avec l'extension .metadix) est encore une extension mineure peu documentée du format .dix des dictionnaires d'Apertium qui autorise un certain niveau de paramétrage des paradigmes dans les dictionnaires unilingues.

Les metadixes sont convertis au format standard .dix pendant la compilation en utilisant des feuilles de style XSLT.

Les metadixes sont couramment utilisés dans quelques paires de langues, comme Anglais-Catalan et Occitan-Catalan.

A partir de la documentation[edit]

Pendant le développement des dictionnaires pour le traducteur Occitan, nous avons été confronté à un nouveau besoin : nous voulions être capable de spécifier des paradigmes pour les verbes qui ont le même schéma d'inflection mais dont la racine change dans les différentes formes fléchies. Avec le système de paradigmes existant, un nouveau paradigme devait être créé pour chacun de ces verbes, puisqu'il était seulement possible de spécifier un modèle régulier d'inflexion pour un groupe de verbes avec la racine invariante.

Avec les métaparadigmes, il est possible de spécifier la régularité d'inflexion aussi bien que des variations de racine de verbe.

En même temps, les métaparadigmes autorisent la spécification, dans un seul paradigme, des variations dans les symboles grammaticaux d'un lemme. Autrement dit, plusieurs lemmes peut se rapporter à un même métaparadigme même s'ils ont différents symboles grammaticaux. Alors que pour l'occitan, les métaparadigmes ont permis d'avoir un même paradigme pour des entrées avec des variations de la racine, pour l'anglais, ceux-ci ont permis d'avoir un même paradigme pour les entrées avec des variations dans leurs symboles grammaticaux.

Par rapport à ça, nous avons créé le concept de métadictionnaire : C'est un dictionnaire qui contient des métaparadigmes aussi bien que des paradigmes normaux utilisés jusqu'ici.

Le nom d'un métadictionnaire est

apertium-PAIR.L1.metadix

(par exemple, pour le dictionnaire unilingue anglais du système Apertium-en-ca,

apertium-en-ca.en.metadix).

Lorsque les données linguistiques sont compilées ces dictionnaires sont pré traités, de sorte qu'ils ont le format approprié pour le compilateur de dictionnaire.

Les métaparadigmes sont définis dans la section <pardefs> du dictionnaire unilingue, la section où le reste des paradigmes du dictionnaire est également défini. Un métaparadigme, tout comme un paradigme, possède un nom spécifié dans l'attribut n. Ce nom aura les mêmes caractéristiques que pour les autres paradigmes, à la différence que la partie variable du lemme racine sera entre crochets et en lettres majuscules, comme vous pouvez le voir dans cet exemple :

<pardef n="m/é[T]er__vblex">

C'est la définition d'un paradigme de verbe, où les fins d'inflexion ont une partie variable dans la racine. Les paradigmes d'inflexion spécifiée dans ce métaparadigme doivent présenter une inflexion seulement dans la partie à droite des crochets, par exemple, comme celui spécifié dans le paradigme :

<par n="mét/er__vblex"/>

En conclusion, un exemple complet de définition de métaparadigme serait :

<pardef n="m/é[T]er__vblex">
  <e>
    <p>
      <l>e</l>
      <r>é</r>
    </p>
    <i><prm/><i>
    <par n="sent/eria__vblex"/>
  </e>
  <e>
    <i>é<prm/></i>
    <par n="mét/er__vblex"/>
  </e>
</pardef>


La balise <prm/> est le marqueur qui est utilisé pour placer la partie texte variable (la variation de la racine) dans la définition du paradigme.

Une fois qu'un métaparadigme est défini, on peut vouloir qu'un verbe l'utilise. Pour le faire, dans l'entrée du verbe (dans l'élément <e>) on doit indiquer le métaparadigme adapté et, à travers l'attribut prm, définir avec quelles lettres on veut remplacer la partie variable spécifiée entre crochets. Par exemple :

<e lm="acuélher">
  <i>acu</i>
  <par n="m/é[T]er__vblex" prm="lh"/>
</e>

Cette entrée définit le verbe occitan acuélher ("recevoir") et spécifie que son paradigme d'inflection est celui défini par le métaparadigme m/é[T]er__vblex, mais en remplaçant T par lh; c'est à dire que, les lettres qui suivent acu seront élher au lieu de éter.

Comme mentionné précédemment, les métaparadigmes peuvent aussi être utilisés pour des entrées qui ont quelque variations dans leur symboles grammaticaux. La manière de les spécifier est pratiquement la même : la partie variable doit être spécifiée dans l'entrée avec l'attribut sa, alors que dans le paradigme la balise <sa> doit être placée là où le symbole grammatical optionnel devrait apparaître.

Voir aussi Unification des metadix et dictionnaires paramétrés