Difference between revisions of "Format du flux Apertium"
Jump to navigation
Jump to search
(→Fragments: Chunks rebaptisé Fragments) |
(→Entrée formatée: corrrection lien vers page wiki) |
||
Line 25: | Line 25: | ||
== Entrée formatée == |
== Entrée formatée == |
||
Voir aussi : [[ |
Voir aussi : [[Support du format d'un document]] |
||
F = texte formaté, T = texte à analyser. |
F = texte formaté, T = texte à analyser. |
Revision as of 23:28, 11 February 2012
Cette page décrit le format de flux utilisé dans la plate-forme de traduction automatique Apertium.
Contents
Caractères
Réservés
Les caractères réservés devraient apparaître seulement échappés dans le flux d'entrée sauf s'ils font partie d'une unité lexicale, d'un chunk ou d'un superblanc.
- Les caractères
^
et$
sont réservés pour délimiter les unités lexicales - Le caractère
/
est réservé pour délimiter les analyses dans les unités lexicales ambiguës - Les caractères
<
et>
sont réservés pour encapsuler les balises - Les caractères
{
et}
sont réservés pour délimiter les chunks - Le caractère
\
est le caractère d'échappement
Spéciaux
- L'astérisque, '
*
' -- Mot non analysé. - Arobase, '
@
' -- Lemme non traduit. - Dièse, '
#
'- Dans la génération morphologique -- Impossible de générer la forme de surface depuis l'unité lexicale.
- Dans l'analyse morphologique -- Début de la partie invariable d'un marqueur multi-mot.
- Symbole plus, '
+
' -- Unités lexicales jointes - Tilde '
~
' -- Le mot doit être traité par un post-générateur.
Entrée formatée
Voir aussi : Support du format d'un document
F = texte formaté, T = texte à analyser.
Le texte formaté est traité comme simple espace (?) à toutes les étapes.
[<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>] |____| |_______| |____| |_______| | | | | F F F F [<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>] |______| | |____| | | | T T T
Analyses
S = forme de surface, L = lemme.
^vino/vino<n><m><sg>/venir<vblex><ifi><p3><sg>$ | | |________| S L BALISES |______| ANALYSE |_____________________________________________| UNITE LEXICALE AMBIGUE ^vino<n><m><sg>$ |______________| UNITE LEXICALE DESAMBIGUISEE ^dímelo/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><nt>/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><m><sg>$ |____________________________________________| MORPHEMES JOINS ^take it away/take<vblex><sep><inf>+prpers<prn><obj><p3><nt><sg># away/take<vblex><sep><pres>+prpers<prn><obj><p3><nt><sg># away$ |___| |_____| | | TETE LEMME QUEUE LEMME
Fragments
Voir aussi : Fragmentation
^Verbcj<SV><vblex><ifi><p3><sg>{^come<vblex><ifi><p3><sg>$}$ ^pr<PREP>{^to<pr>$}$ ^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$ | |______________________||__________________________| | NOM BALISES FRAGMENT UNITES LEXICALES BALISES FRAGMENT DANS LE FRAGMENT LIEES |________________________________________| | FRAGMENT ^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$ |______________| | POINTEURS VERS BALISES FRAGMENT <1> <2> <3>