Le format ACX
Le format ACX est utilisé pour décrire les caractères équivalents dans les dictionnaires unilingues. Si une langue présente plusieurs manières d'écrire un caractère, par exemple en Roumain ș et ş, vous pouvez alors utiliser le fichier pour les définir comme équivalentes.
Il peut être aussi utilisé dans les langues ou l'apostrophe est grammaticalement importante (ex: catalan, français) pour s'assurer que plusieurs variantes différentes sont acceptées pour l'analyse. Le format est défini dans le fichier acx.rng qu'on peut trouver à la fois dans les modules lttoolbox et apertium de SVN.
L'équivalence des caractères, "B et C sont équivalent à A", est exprimée comme suit :
<char value="A">
<equiv-char value="B"/>
<equiv-char value="C"/>
</char>
Compilation
Le programme lt-comp prend un argument de plus, le fichier ACX, par exemple :
$ lt-comp lr apertium-es-ro.ro.dix ro-es.automorf.bin apertium-es-ro.ro.acx apostrophes@postblank 104 134 final@inconditional 24 479 main@standard 43130 81174
Fichier d'exemple
Le fichier apertium-es-ro.ro.acx de apertium-es-ro (commentaires en français).
<?xml version="1.0"?>
<analysis-chars>
<!-- Rend les variantes d'apostrophe égales à ' -->
<char value="'">
<equiv-char value="’"/>
<equiv-char value="ʼ"/>
</char>
<!-- valeurs des caractères avec virgule en dessous -->
<char value="ț">
<equiv-char value="ţ"/>
</char>
<char value="Ț">
<equiv-char value="Ţ"/>
</char>
<char value="ș">
<equiv-char value="ş"/>
</char>
<char value="Ș">
<equiv-char value="Ş"/>
</char>
<!-- Variante orthographique -->
<char value="â">
<equiv-char value="î"/>
</char>
</analysis-chars>