Difference between revisions of "Format du flux Apertium"
Jump to navigation
Jump to search
Hectoralos (talk | contribs) |
(→Fragments: Chunks rebaptisé Fragments) |
||
Line 80: | Line 80: | ||
</pre> |
</pre> |
||
== |
== Fragments == |
||
Voir aussi : [[ |
Voir aussi : [[Fragmentation]] |
||
<pre> |
<pre> |
||
Line 89: | Line 89: | ||
| |______________________||__________________________| | |
| |______________________||__________________________| | |
||
NOM |
NOM BALISES FRAGMENT UNITES LEXICALES BALISES |
||
FRAGMENT DANS LE FRAGMENT LIEES |
|||
|________________________________________| |
|________________________________________| |
||
| |
| |
||
FRAGMENT |
|||
Line 102: | Line 102: | ||
|______________| |
|______________| |
||
| |
| |
||
POINTEURS VERS BALISES FRAGMENT |
|||
<1> <2> <3> |
<1> <2> <3> |
||
</pre> |
</pre> |
||
Revision as of 23:24, 11 February 2012
Cette page décrit le format de flux utilisé dans la plate-forme de traduction automatique Apertium.
Contents
Caractères
Réservés
Les caractères réservés devraient apparaître seulement échappés dans le flux d'entrée sauf s'ils font partie d'une unité lexicale, d'un chunk ou d'un superblanc.
- Les caractères
^
et$
sont réservés pour délimiter les unités lexicales - Le caractère
/
est réservé pour délimiter les analyses dans les unités lexicales ambiguës - Les caractères
<
et>
sont réservés pour encapsuler les balises - Les caractères
{
et}
sont réservés pour délimiter les chunks - Le caractère
\
est le caractère d'échappement
Spéciaux
- L'astérisque, '
*
' -- Mot non analysé. - Arobase, '
@
' -- Lemme non traduit. - Dièse, '
#
'- Dans la génération morphologique -- Impossible de générer la forme de surface depuis l'unité lexicale.
- Dans l'analyse morphologique -- Début de la partie invariable d'un marqueur multi-mot.
- Symbole plus, '
+
' -- Unités lexicales jointes - Tilde '
~
' -- Le mot doit être traité par un post-générateur.
Entrée formatée
Voir aussi : Superblanc
F = texte formaté, T = texte à analyser.
Le texte formaté est traité comme simple espace (?) à toutes les étapes.
[<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>] |____| |_______| |____| |_______| | | | | F F F F [<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>] |______| | |____| | | | T T T
Analyses
S = forme de surface, L = lemme.
^vino/vino<n><m><sg>/venir<vblex><ifi><p3><sg>$ | | |________| S L BALISES |______| ANALYSE |_____________________________________________| UNITE LEXICALE AMBIGUE ^vino<n><m><sg>$ |______________| UNITE LEXICALE DESAMBIGUISEE ^dímelo/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><nt>/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><m><sg>$ |____________________________________________| MORPHEMES JOINS ^take it away/take<vblex><sep><inf>+prpers<prn><obj><p3><nt><sg># away/take<vblex><sep><pres>+prpers<prn><obj><p3><nt><sg># away$ |___| |_____| | | TETE LEMME QUEUE LEMME
Fragments
Voir aussi : Fragmentation
^Verbcj<SV><vblex><ifi><p3><sg>{^come<vblex><ifi><p3><sg>$}$ ^pr<PREP>{^to<pr>$}$ ^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$ | |______________________||__________________________| | NOM BALISES FRAGMENT UNITES LEXICALES BALISES FRAGMENT DANS LE FRAGMENT LIEES |________________________________________| | FRAGMENT ^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$ |______________| | POINTEURS VERS BALISES FRAGMENT <1> <2> <3>