Difference between revisions of "Format du flux Apertium"
Jump to navigation
Jump to search
(→Voir aussi: ajout lien intéressant) |
(Lien page anglaise) |
||
(One intermediate revision by one other user not shown) | |||
Line 1: | Line 1: | ||
[[Apertium stream format|In English]] |
|||
Cette page décrit le format de flux utilisé dans la plate-forme de traduction automatique Apertium. |
Cette page décrit le format de flux utilisé dans la plate-forme de traduction automatique Apertium. |
||
Line 109: | Line 111: | ||
* [[Liste des symboles]] |
* [[Liste des symboles]] |
||
* [[Signification des symboles * @ et |
* [[Signification des symboles * @ et dièse après une traduction]] |
||
[[Category:Formats]] |
[[Category:Formats]] |
Latest revision as of 09:51, 6 October 2014
Cette page décrit le format de flux utilisé dans la plate-forme de traduction automatique Apertium.
Contents
Caractères[edit]
Réservés[edit]
Les caractères réservés devraient apparaître seulement échappés dans le flux d'entrée sauf s'ils font partie d'une unité lexicale, d'un chunk ou d'un superblanc.
- Les caractères
^
et$
sont réservés pour délimiter les unités lexicales - Le caractère
/
est réservé pour délimiter les analyses dans les unités lexicales ambiguës - Les caractères
<
et>
sont réservés pour encapsuler les balises - Les caractères
{
et}
sont réservés pour délimiter les chunks - Le caractère
\
est le caractère d'échappement
Spéciaux[edit]
- L'astérisque, '
*
' -- Mot non analysé. - Arobase, '
@
' -- Lemme non traduit. - Dièse, '
#
'- Dans la génération morphologique -- Impossible de générer la forme de surface depuis l'unité lexicale.
- Dans l'analyse morphologique -- Début de la partie invariable d'un marqueur multi-mot.
- Symbole plus, '
+
' -- Unités lexicales jointes - Tilde '
~
' -- Le mot doit être traité par un post-générateur.
Entrée formatée[edit]
Voir aussi : Support du format d'un document
F = texte formaté, T = texte à analyser.
Le texte formaté est traité comme simple espace (?) à toutes les étapes.
[<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>] |____| |_______| |____| |_______| | | | | F F F F [<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>] |______| | |____| | | | T T T
Analyses[edit]
S = forme de surface, L = lemme.
^vino/vino<n><m><sg>/venir<vblex><ifi><p3><sg>$ | | |________| S L BALISES |______| ANALYSE |_____________________________________________| UNITE LEXICALE AMBIGUE ^vino<n><m><sg>$ |______________| UNITE LEXICALE DESAMBIGUISEE ^dímelo/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><nt>/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><m><sg>$ |____________________________________________| MORPHEMES JOINS ^take it away/take<vblex><sep><inf>+prpers<prn><obj><p3><nt><sg># away/take<vblex><sep><pres>+prpers<prn><obj><p3><nt><sg># away$ |___| |_____| | | TETE LEMME QUEUE LEMME
Fragments[edit]
Voir aussi : Fragmentation
^Verbcj<SV><vblex><ifi><p3><sg>{^come<vblex><ifi><p3><sg>$}$ ^pr<PREP>{^to<pr>$}$ ^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$ | |______________________||__________________________| | NOM BALISES FRAGMENT UNITES LEXICALES BALISES FRAGMENT DANS LE FRAGMENT LIEES |________________________________________| | FRAGMENT ^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$ |______________| | POINTEURS VERS BALISES FRAGMENT <1> <2> <3>