Apertium has moved from SourceForge to GitHub.
If you have any questions, please come and talk to us on #apertium on irc.freenode.net or contact the GitHub migration team.

Format du flux Apertium

From Apertium
Jump to navigation Jump to search

In English

Cette page décrit le format de flux utilisé dans la plate-forme de traduction automatique Apertium.

Caractères[edit]

Réservés[edit]

Les caractères réservés devraient apparaître seulement échappés dans le flux d'entrée sauf s'ils font partie d'une unité lexicale, d'un chunk ou d'un superblanc.

  • Les caractères ^ et $ sont réservés pour délimiter les unités lexicales
  • Le caractère / est réservé pour délimiter les analyses dans les unités lexicales ambiguës
  • Les caractères < et > sont réservés pour encapsuler les balises
  • Les caractères { et } sont réservés pour délimiter les chunks
  • Le caractère \ est le caractère d'échappement

Spéciaux[edit]

  • L'astérisque, '*' -- Mot non analysé.
  • Arobase, '@' -- Lemme non traduit.
  • Dièse, '#'
    • Dans la génération morphologique -- Impossible de générer la forme de surface depuis l'unité lexicale.
    • Dans l'analyse morphologique -- Début de la partie invariable d'un marqueur multi-mot.
  • Symbole plus, '+' -- Unités lexicales jointes
  • Tilde '~' -- Le mot doit être traité par un post-générateur.

Entrée formatée[edit]

Voir aussi : Support du format d'un document

F = texte formaté, T = texte à analyser.

Le texte formaté est traité comme simple espace (?) à toutes les étapes.


[<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>]

|____|       |_______| |____|     |_______|
   |            |        |            |
   F            F        F            F
    
[<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>]
      |______|        |      |____|
          |           |        | 
          T           T        T

Analyses[edit]

S = forme de surface, L = lemme.


^vino/vino<n><m><sg>/venir<vblex><ifi><p3><sg>$

   |    | |________|
   S    L   BALISES
        |______|
        ANALYSE

|_____________________________________________|
            UNITE LEXICALE AMBIGUE

^vino<n><m><sg>$

|______________|
 UNITE LEXICALE
 DESAMBIGUISEE

^dímelo/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><nt>/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><m><sg>$

                                 |____________________________________________|
                                                MORPHEMES JOINS

^take it away/take<vblex><sep><inf>+prpers<prn><obj><p3><nt><sg># away/take<vblex><sep><pres>+prpers<prn><obj><p3><nt><sg># away$

              |___|                                             |_____|
                |                                                  |
            TETE LEMME                                        QUEUE LEMME

Fragments[edit]

Voir aussi : Fragmentation


^Verbcj<SV><vblex><ifi><p3><sg>{^come<vblex><ifi><p3><sg>$}$ ^pr<PREP>{^to<pr>$}$ ^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$

   |   |______________________||__________________________|                                                          |
  NOM      BALISES FRAGMENT          UNITES LEXICALES                                                             BALISES
FRAGMENT                             DANS LE FRAGMENT                                                              LIEES

   |________________________________________|
                       |
                    FRAGMENT



^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$

                                   |______________|
                                          |
                            POINTEURS VERS BALISES FRAGMENT
        <1> <2> <3> 

Voir aussi[edit]