Format du flux Apertium

From Apertium
Jump to navigation Jump to search

In English

Cette page décrit le format de flux utilisé dans la plate-forme de traduction automatique Apertium.

Caractères

Réservés

Les caractères réservés devraient apparaître seulement échappés dans le flux d'entrée sauf s'ils font partie d'une unité lexicale, d'un chunk ou d'un superblanc.

  • Les caractères ^ et $ sont réservés pour délimiter les unités lexicales
  • Le caractère / est réservé pour délimiter les analyses dans les unités lexicales ambiguës
  • Les caractères < et > sont réservés pour encapsuler les balises
  • Les caractères { et } sont réservés pour délimiter les chunks
  • Le caractère \ est le caractère d'échappement

Spéciaux

  • L'astérisque, '*' -- Mot non analysé.
  • Arobase, '@' -- Lemme non traduit.
  • Dièse, '#'
    • Dans la génération morphologique -- Impossible de générer la forme de surface depuis l'unité lexicale.
    • Dans l'analyse morphologique -- Début de la partie invariable d'un marqueur multi-mot.
  • Symbole plus, '+' -- Unités lexicales jointes
  • Tilde '~' -- Le mot doit être traité par un post-générateur.

Entrée formatée

Voir aussi : Support du format d'un document

F = texte formaté, T = texte à analyser.

Le texte formaté est traité comme simple espace (?) à toutes les étapes.


[<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>]

|____|       |_______| |____|     |_______|
   |            |        |            |
   F            F        F            F
    
[<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>]
      |______|        |      |____|
          |           |        | 
          T           T        T

Analyses

S = forme de surface, L = lemme.


^vino/vino<n><m><sg>/venir<vblex><ifi><p3><sg>$

   |    | |________|
   S    L   BALISES
        |______|
        ANALYSE

|_____________________________________________|
            UNITE LEXICALE AMBIGUE

^vino<n><m><sg>$

|______________|
 UNITE LEXICALE
 DESAMBIGUISEE

^dímelo/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><nt>/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><m><sg>$

                                 |____________________________________________|
                                                MORPHEMES JOINS

^take it away/take<vblex><sep><inf>+prpers<prn><obj><p3><nt><sg># away/take<vblex><sep><pres>+prpers<prn><obj><p3><nt><sg># away$

              |___|                                             |_____|
                |                                                  |
            TETE LEMME                                        QUEUE LEMME

Fragments

Voir aussi : Fragmentation


^Verbcj<SV><vblex><ifi><p3><sg>{^come<vblex><ifi><p3><sg>$}$ ^pr<PREP>{^to<pr>$}$ ^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$

   |   |______________________||__________________________|                                                          |
  NOM      BALISES FRAGMENT          UNITES LEXICALES                                                             BALISES
FRAGMENT                             DANS LE FRAGMENT                                                              LIEES

   |________________________________________|
                       |
                    FRAGMENT



^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$

                                   |______________|
                                          |
                            POINTEURS VERS BALISES FRAGMENT
        <1> <2> <3> 

Voir aussi