Difference between revisions of "Курсы машинного перевода для языков России/Раздел 2"
(Created page with '{{TOCD}} This session aims to give an introduction to some more advanced topics in the Apertium dictionaries. We have seen in session 1 how to make simple dictionary entries, an…') |
|||
Line 1: | Line 1: | ||
{{TOCD}} |
{{TOCD}} |
||
Данный раздел будет посвящен знакомству с более продвинутыми темами в словарях Apertium. В первом разделе мы увидели, как вводить простые данные для словарей, и рассмотрели парадигмы. В данном разделе мы рассмотрим как вводить multiwords. |
|||
This session aims to give an introduction to some more advanced topics in the Apertium dictionaries. We have seen in session 1 how to make simple dictionary entries, and looked at paradigms. In this session we'll make entries for multiwords. |
This session aims to give an introduction to some more advanced topics in the Apertium dictionaries. We have seen in session 1 how to make simple dictionary entries, and looked at paradigms. In this session we'll make entries for multiwords. |
||
== |
==Теория== |
||
Говоря о multiwords (или multiword expressions, MWEs), мы должны приниматься во внимание несколько аспектов. |
|||
===Композиционность=== |
|||
===Compositionality=== |
|||
{{comment|TODO; find examples}} |
{{comment|TODO; find examples}} |
||
A multi-word expression является композиционноым (compositional) когда его значение можно вывести из значений слов, которые его составляют. Однако это не означает, что оно останется композиционным при переводе. Например: |
|||
A multi-word expression is compositional when its meaning can be deduced from the meanings of the words that comprise it. However, this is not to say that it will necessarily be compositional in translation. For example: |
|||
* ''Телефонная будка''{{slc|ru}} is compositional, |
* ''Телефонная будка''{{slc|ru}} is compositional, значение становится понятным из значений двух слов. |
||
* ''Juego de etiquetas''{{slc|es}} is a multiword expression that is compositional, |
* ''Juego de etiquetas''{{slc|es}} is a multiword expression that is compositional, но значение каждого слова этого выражения в отдельности не является частым. |
||
* ''Итальянская забастовка''{{slc|ru}} is partially non-compositional, |
* ''Итальянская забастовка''{{slc|ru}} is partially non-compositional, значение целого выражения непонятно если знать только значения двух составляющих слов. |
||
* ''Kafa çekmek''{{slc|tr}} is non-compositional, |
* ''Kafa çekmek''{{slc|tr}} is non-compositional, даже если мы знаем значение каждого отдельного слова, значение выражения не становится понятным. |
||
Учитывать composit важно при переводе, потому что compositional multiword по ошибке может быть рассмотрено как два отдельных простых слова while a completely non-compositional one has to be fully listed. |
|||
===Variability=== |
===Вариантность (изменяемость) Variability=== |
||
{{comment|TODO; find examples}} |
{{comment|TODO; find examples}} |
Revision as of 16:04, 1 January 2012
Данный раздел будет посвящен знакомству с более продвинутыми темами в словарях Apertium. В первом разделе мы увидели, как вводить простые данные для словарей, и рассмотрели парадигмы. В данном разделе мы рассмотрим как вводить multiwords. This session aims to give an introduction to some more advanced topics in the Apertium dictionaries. We have seen in session 1 how to make simple dictionary entries, and looked at paradigms. In this session we'll make entries for multiwords.
Теория
Говоря о multiwords (или multiword expressions, MWEs), мы должны приниматься во внимание несколько аспектов.
Композиционность
TODO; find examples
A multi-word expression является композиционноым (compositional) когда его значение можно вывести из значений слов, которые его составляют. Однако это не означает, что оно останется композиционным при переводе. Например:
- Телефонная будка(
ru
) is compositional, значение становится понятным из значений двух слов. - Juego de etiquetas(
es
) is a multiword expression that is compositional, но значение каждого слова этого выражения в отдельности не является частым. - Итальянская забастовка(
ru
) is partially non-compositional, значение целого выражения непонятно если знать только значения двух составляющих слов. - Kafa çekmek(
tr
) is non-compositional, даже если мы знаем значение каждого отдельного слова, значение выражения не становится понятным.
Учитывать composit важно при переводе, потому что compositional multiword по ошибке может быть рассмотрено как два отдельных простых слова while a completely non-compositional one has to be fully listed.
Вариантность (изменяемость) Variability
TODO; find examples
Multiwords may allow variation, either for inflection, e.g. French vaut la peine, valait la peine, or by allowing modifying words, Kyrgyz: ичим айланат, ичим көп айланат "my stomach hurts", "my stomach hurts a lot". Multiword verbs may allow passivisation or not.
They may inflect in only one position, be it:
- At the end, pazartesi gün, pazartesi günler(
tr
) or - In the middle hôtel de ville, hôtels de ville(
fr
)
Or on both sides:
Contiguity
TODO; find examples
Along with internal variation, multiwords may also be contiguous or discontiguous. Contiguous means that the words follow each other, separated by spaces. Most of the above examples are contiguous multiwords. They can also be discontiguous, like phrasal verbs in Swedish and Dutch, examples might be: lopen uit de hand, äta upp and tilføje:
- Twee jaar later loopt de situatie in het land onder de indruk van massabetogingen uit de hand.(
nl
) - Alla stygga barnen åt tigern upp.(
sv
) - Føje et ord eller en sætning til den brugerdefinerede ordbog.(
da
)