Курсы машинного перевода для языков России/Раздел 2
Данный раздел будет посвящен знакомству с более продвинутыми темами в словарях Apertium. В первом разделе мы увидели, как вводить простые данные для словарей, и рассмотрели парадигмы. В данном разделе мы рассмотрим как вводить multiwords. This session aims to give an introduction to some more advanced topics in the Apertium dictionaries. We have seen in session 1 how to make simple dictionary entries, and looked at paradigms. In this session we'll make entries for multiwords.
Теория
Говоря о multiwords (или multiword expressions, MWEs), мы должны приниматься во внимание несколько аспектов.
Композиционность
TODO; find examples
A multi-word expression является композиционноым (compositional) когда его значение можно вывести из значений слов, которые его составляют. Однако это не означает, что оно останется композиционным при переводе. Например:
- Телефонная будка(
ru
) is compositional, значение становится понятным из значений двух компонентов. - Juego de etiquetas(
es
) is a multiword expression that is compositional, но значение каждого слова этого выражения в отдельности не является частым. - Итальянская забастовка(
ru
) is partially non-compositional, значение целого выражения непонятно если знать только значения двух составляющих слов. - Kafa çekmek(
tr
) is non-compositional, значение не может быть получено из значений ее компонентов.
Учитывать composit важно при переводе, потому что compositional multiword по ошибке может быть рассмотрено как два отдельных простых слова while a completely non-compositional one has to be fully listed.
Вариантность (изменяемость) Variability
TODO; find examples
В Multiwords могут меняться как окончания, например во французском языке vaut la peine, valait la peine, так и модифицироваться слова, в киргизском: ичим айланат, ичим көп айланат "у меня болит живот", "у меня болит животочень". Некоторые глаголы в Multiword могут принимать пассивную форму.
Окончания могут изменяться или только в одному компоненте:
Или в обоих компонентах:
Contiguity (смежность)
TODO; find examples
Наряду с внутренними возможностями изменений, multiwords делятся на contiguous (контактные) or discontiguous. Contiguous означает, что слова следуют друз за другом, разделенные пробелом. Большинство вышеприведенных примеров - это contiguous multiwords. Но бывают и discontiguous, такие как фразовые глаголы в шведском и нидерландском, например: lopen uit de hand, äta upp и tilføje:
- Twee jaar later loopt de situatie in het land onder de indruk van massabetogingen uit de hand.(
nl
) - Alla stygga barnen åt tigern upp.(
sv
) - Føje et ord eller en sætning til den brugerdefinerede ordbog.(
da
)