Apertium has moved from SourceForge to GitHub.
If you have any questions, please come and talk to us on #apertium on irc.freenode.net or contact the GitHub migration team.

Le format ACX

From Apertium
Jump to: navigation, search

In English

Le format ACX est utilisé pour décrire les caractères équivalents dans les dictionnaires unilingues. Si une langue présente plusieurs manières d'écrire un caractère, par exemple en Roumain ș et ş, vous pouvez alors utiliser le fichier pour les définir comme équivalentes.

Il peut être aussi utilisé dans les langues ou l'apostrophe est grammaticalement importante (ex: catalan, français) pour s'assurer que plusieurs variantes différentes sont acceptées pour l'analyse. Le format est défini dans le fichier acx.rng qu'on peut trouver à la fois dans les modules lttoolbox et apertium de SVN.

L'équivalence des caractères, "B et C sont équivalent à A", est exprimée comme suit :

  <char value="A">
    <equiv-char value="B"/>
    <equiv-char value="C"/>
  </char>

[edit] Compilation

Le programme lt-comp prend un argument de plus, le fichier ACX, par exemple :

$ lt-comp lr apertium-es-ro.ro.dix ro-es.automorf.bin apertium-es-ro.ro.acx 
apostrophes@postblank 104 134
final@inconditional 24 479
main@standard 43130 81174

[edit] Fichier d'exemple

Le fichier apertium-es-ro.ro.acx de apertium-es-ro (commentaires en français).

<?xml version="1.0"?>
<analysis-chars>
  <!-- Rend les variantes d'apostrophe égales à ' -->
  <char value="'">
    <equiv-char value="’"/>
    <equiv-char value="ʼ"/>
  </char>

  <!-- valeurs des caractères avec virgule en dessous -->
  <char value="ț">
    <equiv-char value="ţ"/>
  </char>
  <char value="Ț">
    <equiv-char value="Ţ"/>
  </char>
  <char value="ș">
    <equiv-char value="ş"/>
  </char>
  <char value="Ș">
    <equiv-char value="Ş"/>
  </char>

  <!-- Variante orthographique -->
  <char value="â">
    <equiv-char value="î"/>
  </char>
</analysis-chars>
Personal tools