Difference between revisions of "Format du flux Apertium"

From Apertium
Jump to navigation Jump to search
(Création page)
 
Line 110: Line 110:
* [[Liste de symboles]]
* [[Liste de symboles]]


[[Category:Documentation]]
[[Category:Formats]]
[[Category:Formats]]
[[Category:Documentation en français]]
[[Category:Documentation en français]]

Revision as of 11:55, 18 January 2012

Cette page décrit le format de flux utilisé dans la plate-forme de traduction automatique Apertium.

Caractères

Réservés

Les caractères réservés devraient apparaître seulement échappés dans le flux d'entrée sauf s'ils font partie d'une unité lexicale, d'un chunk ou d'un superblanc.

  • Les caractères ^ et $ sont réservés pour délimiter les unités lexicales
  • Le caractère / est réservé pour délimiter les analyses dans les unités lexicales ambiguës
  • Les caractères < et > sont réservés pour encapsuler les balises
  • Les caractères { et } sont réservés pour délimiter les chunks
  • Le caractère \ est le caractère d'échappement

Spéciaux

  • L'astérisque, '*' -- Mot non analysé.
  • Arobase, '@' -- Lemme non traduit.
  • Dièse, '#'
    • Dans la génération morphologique -- Impossible de générer la forme de surface depuis l'unité lexicale.
    • Dans l'analyse morphologique -- Début de la partie invariable d'un marqueur multi-mot.
  • Symbole plus, '+' -- Unités lexicales jointes
  • Tilde '~' -- Le mot doit être traité par un post-générateur.

Entrée formatée

Voir aussi : Superblanc

F = texte formaté, T = texte à analyser.

Le texte formaté est traité comme simple espace (?) à toutes les étapes.


[<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>]

|____|       |_______| |____|     |_______|
   |            |        |            |
   F            F        F            F
    
[<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>]
      |______|        |      |____|
          |           |        | 
          T           T        T

Analyses

S = forme de surface, L = lemme.


^vino/vino<n><m><sg>/venir<vblex><ifi><p3><sg>$

   |    | |________|
   S    L   BALISES
        |______|
        ANALYSE

|_____________________________________________|
            UNITE LEXICALE AMBIGUE

^vino<n><m><sg>$

|______________|
 UNITE LEXICALE
 DESAMBIGUISEE

^dímelo/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><nt>/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><m><sg>$

                                 |____________________________________________|
                                                MORPHEMES JOINS

^take it away/take<vblex><sep><inf>+prpers<prn><obj><p3><nt><sg># away/take<vblex><sep><pres>+prpers<prn><obj><p3><nt><sg># away$

              |___|                                             |_____|
                |                                                  |
            TETE LEMME                                        QUEUE LEMME

Chunks

Voir aussi : Chunks


^Verbcj<SV><vblex><ifi><p3><sg>{^come<vblex><ifi><p3><sg>$}$ ^pr<PREP>{^to<pr>$}$ ^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$

   |   |______________________||__________________________|                                                          |
  NOM       BALISES CHUNK            UNITES LEXICALES                                                             BALISES
 CHUNK                                 DANS LE CHUNK                                                               LIEES

   |________________________________________|
                       |
                     CHUNK



^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$

                                   |______________|
                                          |
                              POINTEURS VERS BALISES CHUNK
        <1> <2> <3>     

Voir aussi