Format du flux Apertium
Jump to navigation
Jump to search
Cette page décrit le format de flux utilisé dans la plate-forme de traduction automatique Apertium.
Contents
Caractères[edit]
Réservés[edit]
Les caractères réservés devraient apparaître seulement échappés dans le flux d'entrée sauf s'ils font partie d'une unité lexicale, d'un chunk ou d'un superblanc.
- Les caractères
^et$sont réservés pour délimiter les unités lexicales - Le caractère
/est réservé pour délimiter les analyses dans les unités lexicales ambiguës - Les caractères
<et>sont réservés pour encapsuler les balises - Les caractères
{et}sont réservés pour délimiter les chunks - Le caractère
\est le caractère d'échappement
Spéciaux[edit]
- L'astérisque, '
*' -- Mot non analysé. - Arobase, '
@' -- Lemme non traduit. - Dièse, '
#'- Dans la génération morphologique -- Impossible de générer la forme de surface depuis l'unité lexicale.
- Dans l'analyse morphologique -- Début de la partie invariable d'un marqueur multi-mot.
- Symbole plus, '
+' -- Unités lexicales jointes - Tilde '
~' -- Le mot doit être traité par un post-générateur.
Entrée formatée[edit]
Voir aussi : Support du format d'un document
F = texte formaté, T = texte à analyser.
Le texte formaté est traité comme simple espace (?) à toutes les étapes.
[<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>]
|____| |_______| |____| |_______|
| | | |
F F F F
[<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>]
|______| | |____|
| | |
T T T
Analyses[edit]
S = forme de surface, L = lemme.
^vino/vino<n><m><sg>/venir<vblex><ifi><p3><sg>$
| | |________|
S L BALISES
|______|
ANALYSE
|_____________________________________________|
UNITE LEXICALE AMBIGUE
^vino<n><m><sg>$
|______________|
UNITE LEXICALE
DESAMBIGUISEE
^dímelo/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><nt>/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><m><sg>$
|____________________________________________|
MORPHEMES JOINS
^take it away/take<vblex><sep><inf>+prpers<prn><obj><p3><nt><sg># away/take<vblex><sep><pres>+prpers<prn><obj><p3><nt><sg># away$
|___| |_____|
| |
TETE LEMME QUEUE LEMME
Fragments[edit]
Voir aussi : Fragmentation
^Verbcj<SV><vblex><ifi><p3><sg>{^come<vblex><ifi><p3><sg>$}$ ^pr<PREP>{^to<pr>$}$ ^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$
| |______________________||__________________________| |
NOM BALISES FRAGMENT UNITES LEXICALES BALISES
FRAGMENT DANS LE FRAGMENT LIEES
|________________________________________|
|
FRAGMENT
^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$
|______________|
|
POINTEURS VERS BALISES FRAGMENT
<1> <2> <3>