Le format ACX
Le format ACX est utilisé pour décrire les caractères équivalents dans les dictionnaires unilingues. Si une langue présente plusieurs manières d'écrire un caractère, par exemple en Roumain ș et ş, vous pouvez alors utiliser le fichier pour les définir comme équivalentes.
Il peut être aussi utilisé dans les langues ou l'apostrophe est grammaticalement importante (ex: catalan, français) pour s'assurer que plusieurs variantes différentes sont acceptées pour l'analyse. Le format est défini dans le fichier acx.rng
qu'on peut trouver à la fois dans les modules lttoolbox
et apertium
de SVN.
L'équivalence des caractères, "B et C sont équivalent à A", est exprimée comme suit :
<char value="A"> <equiv-char value="B"/> <equiv-char value="C"/> </char>
Compilation[edit]
Le programme lt-comp prend un argument de plus, le fichier ACX, par exemple :
$ lt-comp lr apertium-es-ro.ro.dix ro-es.automorf.bin apertium-es-ro.ro.acx apostrophes@postblank 104 134 final@inconditional 24 479 main@standard 43130 81174
Fichier d'exemple[edit]
Le fichier apertium-es-ro.ro.acx
de apertium-es-ro
(commentaires en français).
<?xml version="1.0"?> <analysis-chars> <!-- Rend les variantes d'apostrophe égales à ' --> <char value="'"> <equiv-char value="’"/> <equiv-char value="ʼ"/> </char> <!-- valeurs des caractères avec virgule en dessous --> <char value="ț"> <equiv-char value="ţ"/> </char> <char value="Ț"> <equiv-char value="Ţ"/> </char> <char value="ș"> <equiv-char value="ş"/> </char> <char value="Ș"> <equiv-char value="Ş"/> </char> <!-- Variante orthographique --> <char value="â"> <equiv-char value="î"/> </char> </analysis-chars>