Le format ACX

From Apertium
Jump to navigation Jump to search

In English

Le format ACX est utilisé pour décrire les caractères équivalents dans les dictionnaires unilingues. Si une langue présente plusieurs manières d'écrire un caractère, par exemple en Roumain ș et ş, vous pouvez alors utiliser le fichier pour les définir comme équivalentes.

Il peut être aussi utilisé dans les langues ou l'apostrophe est grammaticalement importante (ex: catalan, français) pour s'assurer que plusieurs variantes différentes sont acceptées pour l'analyse. Le format est défini dans le fichier acx.rng qu'on peut trouver à la fois dans les modules lttoolbox et apertium de SVN.

L'équivalence des caractères, "B et C sont équivalent à A", est exprimée comme suit :

  <char value="A">
    <equiv-char value="B"/>
    <equiv-char value="C"/>
  </char>

Compilation

Le programme lt-comp prend un argument de plus, le fichier ACX, par exemple :

$ lt-comp lr apertium-es-ro.ro.dix ro-es.automorf.bin apertium-es-ro.ro.acx 
apostrophes@postblank 104 134
final@inconditional 24 479
main@standard 43130 81174

Fichier d'exemple

Le fichier apertium-es-ro.ro.acx de apertium-es-ro (commentaires en français).

<?xml version="1.0"?>
<analysis-chars>
  <!-- Rend les variantes d'apostrophe égales à ' -->
  <char value="'">
    <equiv-char value="’"/>
    <equiv-char value="ʼ"/>
  </char>

  <!-- valeurs des caractères avec virgule en dessous -->
  <char value="ț">
    <equiv-char value="ţ"/>
  </char>
  <char value="Ț">
    <equiv-char value="Ţ"/>
  </char>
  <char value="ș">
    <equiv-char value="ş"/>
  </char>
  <char value="Ș">
    <equiv-char value="Ş"/>
  </char>

  <!-- Variante orthographique -->
  <char value="â">
    <equiv-char value="î"/>
  </char>
</analysis-chars>