Format du flux Apertium
		
		
		
		
		
		
		Jump to navigation
		Jump to search
		
		
		
		
		
		
		
	
Cette page décrit le format de flux utilisé dans la plate-forme de traduction automatique Apertium.
Contents
Caractères[edit]
Réservés[edit]
Les caractères réservés devraient apparaître seulement échappés dans le flux d'entrée sauf s'ils font partie d'une unité lexicale, d'un chunk ou d'un superblanc.
- Les caractères ^et$sont réservés pour délimiter les unités lexicales
- Le caractère /est réservé pour délimiter les analyses dans les unités lexicales ambiguës
- Les caractères <et>sont réservés pour encapsuler les balises
- Les caractères {et}sont réservés pour délimiter les chunks
- Le caractère \est le caractère d'échappement
Spéciaux[edit]
- L'astérisque, '*' -- Mot non analysé.
- Arobase, '@' -- Lemme non traduit.
- Dièse, '#'- Dans la génération morphologique -- Impossible de générer la forme de surface depuis l'unité lexicale.
- Dans l'analyse morphologique -- Début de la partie invariable d'un marqueur multi-mot.
 
- Symbole plus, '+' -- Unités lexicales jointes
- Tilde '~' -- Le mot doit être traité par un post-générateur.
Entrée formatée[edit]
Voir aussi : Support du format d'un document
F = texte formaté, T = texte à analyser.
Le texte formaté est traité comme simple espace (?) à toutes les étapes.
[<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>]
|____|       |_______| |____|     |_______|
   |            |        |            |
   F            F        F            F
    
[<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>]
      |______|        |      |____|
          |           |        | 
          T           T        T
Analyses[edit]
S = forme de surface, L = lemme.
^vino/vino<n><m><sg>/venir<vblex><ifi><p3><sg>$
   |    | |________|
   S    L   BALISES
        |______|
        ANALYSE
|_____________________________________________|
            UNITE LEXICALE AMBIGUE
^vino<n><m><sg>$
|______________|
 UNITE LEXICALE
 DESAMBIGUISEE
^dímelo/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><nt>/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><m><sg>$
                                 |____________________________________________|
                                                MORPHEMES JOINS
^take it away/take<vblex><sep><inf>+prpers<prn><obj><p3><nt><sg># away/take<vblex><sep><pres>+prpers<prn><obj><p3><nt><sg># away$
              |___|                                             |_____|
                |                                                  |
            TETE LEMME                                        QUEUE LEMME
Fragments[edit]
Voir aussi : Fragmentation
^Verbcj<SV><vblex><ifi><p3><sg>{^come<vblex><ifi><p3><sg>$}$ ^pr<PREP>{^to<pr>$}$ ^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$
   |   |______________________||__________________________|                                                          |
  NOM      BALISES FRAGMENT          UNITES LEXICALES                                                             BALISES
FRAGMENT                             DANS LE FRAGMENT                                                              LIEES
   |________________________________________|
                       |
                    FRAGMENT
^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$
                                   |______________|
                                          |
                            POINTEURS VERS BALISES FRAGMENT
        <1> <2> <3> 

