Difference between revisions of "Format du flux Apertium"
Jump to navigation
Jump to search
Hectoralos (talk | contribs) |
(Lien page anglaise) |
||
(5 intermediate revisions by 2 users not shown) | |||
Line 1: | Line 1: | ||
[[Apertium stream format|In English]] |
|||
Cette page décrit le format de flux utilisé dans la plate-forme de traduction automatique Apertium. |
Cette page décrit le format de flux utilisé dans la plate-forme de traduction automatique Apertium. |
||
Line 25: | Line 27: | ||
== Entrée formatée == |
== Entrée formatée == |
||
Voir aussi : [[ |
Voir aussi : [[Support du format d'un document]] |
||
F = texte formaté, T = texte à analyser. |
F = texte formaté, T = texte à analyser. |
||
Line 80: | Line 82: | ||
</pre> |
</pre> |
||
== |
== Fragments == |
||
Voir aussi : [[ |
Voir aussi : [[Fragmentation]] |
||
<pre> |
<pre> |
||
Line 89: | Line 91: | ||
| |______________________||__________________________| | |
| |______________________||__________________________| | |
||
NOM |
NOM BALISES FRAGMENT UNITES LEXICALES BALISES |
||
FRAGMENT DANS LE FRAGMENT LIEES |
|||
|________________________________________| |
|________________________________________| |
||
| |
| |
||
FRAGMENT |
|||
Line 102: | Line 104: | ||
|______________| |
|______________| |
||
| |
| |
||
POINTEURS VERS BALISES FRAGMENT |
|||
<1> <2> <3> |
<1> <2> <3> |
||
</pre> |
</pre> |
||
== Voir aussi == |
== Voir aussi == |
||
* [[Liste |
* [[Liste des symboles]] |
||
* [[Signification des symboles * @ et dièse après une traduction]] |
|||
[[Category:Formats]] |
[[Category:Formats]] |
Latest revision as of 09:51, 6 October 2014
Cette page décrit le format de flux utilisé dans la plate-forme de traduction automatique Apertium.
Contents
Caractères[edit]
Réservés[edit]
Les caractères réservés devraient apparaître seulement échappés dans le flux d'entrée sauf s'ils font partie d'une unité lexicale, d'un chunk ou d'un superblanc.
- Les caractères
^
et$
sont réservés pour délimiter les unités lexicales - Le caractère
/
est réservé pour délimiter les analyses dans les unités lexicales ambiguës - Les caractères
<
et>
sont réservés pour encapsuler les balises - Les caractères
{
et}
sont réservés pour délimiter les chunks - Le caractère
\
est le caractère d'échappement
Spéciaux[edit]
- L'astérisque, '
*
' -- Mot non analysé. - Arobase, '
@
' -- Lemme non traduit. - Dièse, '
#
'- Dans la génération morphologique -- Impossible de générer la forme de surface depuis l'unité lexicale.
- Dans l'analyse morphologique -- Début de la partie invariable d'un marqueur multi-mot.
- Symbole plus, '
+
' -- Unités lexicales jointes - Tilde '
~
' -- Le mot doit être traité par un post-générateur.
Entrée formatée[edit]
Voir aussi : Support du format d'un document
F = texte formaté, T = texte à analyser.
Le texte formaté est traité comme simple espace (?) à toutes les étapes.
[<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>] |____| |_______| |____| |_______| | | | | F F F F [<em>]this is[<\/em> ]a[ <b>]test.[][<\/b>] |______| | |____| | | | T T T
Analyses[edit]
S = forme de surface, L = lemme.
^vino/vino<n><m><sg>/venir<vblex><ifi><p3><sg>$ | | |________| S L BALISES |______| ANALYSE |_____________________________________________| UNITE LEXICALE AMBIGUE ^vino<n><m><sg>$ |______________| UNITE LEXICALE DESAMBIGUISEE ^dímelo/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><nt>/decir<vblex><imp><p2><sg>+me<prn><enc><p1><mf><sg>+lo<prn><enc><p3><m><sg>$ |____________________________________________| MORPHEMES JOINS ^take it away/take<vblex><sep><inf>+prpers<prn><obj><p3><nt><sg># away/take<vblex><sep><pres>+prpers<prn><obj><p3><nt><sg># away$ |___| |_____| | | TETE LEMME QUEUE LEMME
Fragments[edit]
Voir aussi : Fragmentation
^Verbcj<SV><vblex><ifi><p3><sg>{^come<vblex><ifi><p3><sg>$}$ ^pr<PREP>{^to<pr>$}$ ^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$ | |______________________||__________________________| | NOM BALISES FRAGMENT UNITES LEXICALES BALISES FRAGMENT DANS LE FRAGMENT LIEES |________________________________________| | FRAGMENT ^det_nom<SN><f><sg>{^the<det><def><3>$ ^beach<n><3>$}$ |______________| | POINTEURS VERS BALISES FRAGMENT <1> <2> <3>