Difference between revisions of "Курсы машинного перевода для языков России/Раздел 2"
Line 14: | Line 14: | ||
A multi-word expression является композиционноым (compositional) когда его значение можно вывести из значений слов, которые его составляют. Однако это не означает, что оно останется композиционным при переводе. Например: |
A multi-word expression является композиционноым (compositional) когда его значение можно вывести из значений слов, которые его составляют. Однако это не означает, что оно останется композиционным при переводе. Например: |
||
* ''Телефонная будка''{{slc|ru}} is compositional, значение становится понятным из значений двух |
* ''Телефонная будка''{{slc|ru}} is compositional, значение становится понятным из значений двух компонентов. |
||
* ''Juego de etiquetas''{{slc|es}} is a multiword expression that is compositional, но значение каждого слова этого выражения в отдельности не является частым. |
* ''Juego de etiquetas''{{slc|es}} is a multiword expression that is compositional, но значение каждого слова этого выражения в отдельности не является частым. |
||
* ''Итальянская забастовка''{{slc|ru}} is partially non-compositional, значение целого выражения непонятно если знать только значения двух составляющих слов. |
* ''Итальянская забастовка''{{slc|ru}} is partially non-compositional, значение целого выражения непонятно если знать только значения двух составляющих слов. |
||
* ''Kafa çekmek''{{slc|tr}} is non-compositional, |
* ''Kafa çekmek''{{slc|tr}} is non-compositional, значение не может быть получено из значений ее компонентов. |
||
Учитывать composit важно при переводе, потому что compositional multiword по ошибке может быть рассмотрено как два отдельных простых слова while a completely non-compositional one has to be fully listed. |
Учитывать composit важно при переводе, потому что compositional multiword по ошибке может быть рассмотрено как два отдельных простых слова while a completely non-compositional one has to be fully listed. |
||
Line 25: | Line 25: | ||
{{comment|TODO; find examples}} |
{{comment|TODO; find examples}} |
||
Multiwords |
В Multiwords могут меняться как окончания, например во французском языке ''vaut la peine, valait la peine'', так и модифицироваться слова, в киргизском: ''ичим айланат, ичим '''көп''' айланат'' "у меня болит живот", "у меня болит живот'''очень'''". Некоторые глаголы в Multiword могут принимать пассивную форму. |
||
Окончания могут изменяться или только в одному компоненте: |
|||
They may inflect in only one position, be it: |
|||
* |
* в конце, ''pazartesi gün, pazartesi gün'''ler'''''{{slc|tr}} or |
||
* |
* в середине ''hôtel de ville, hôtel'''s''' de ville''{{slc|fr}} |
||
Или в обоих компонентах: |
|||
Or on both sides: |
|||
* ''телефонная будка, телефонн'''ой''' будк'''и''''' {{slc|ru}} and |
* ''телефонная будка, телефонн'''ой''' будк'''и''''' {{slc|ru}} and |
||
* ''ич айлан-, ич'''им''' айлан'''ат''''' {{slc|ky}}. |
* ''ич айлан-, ич'''им''' айлан'''ат''''' {{slc|ky}}. |
||
===Contiguity=== |
===Contiguity (смежность)=== |
||
{{comment|TODO; find examples}} |
{{comment|TODO; find examples}} |
||
Наряду с внутренними возможностями изменений, multiwords делятся на contiguous (контактные) or discontiguous. Contiguous означает, что слова следуют друз за другом, разделенные пробелом. Большинство вышеприведенных примеров - это contiguous multiwords. Но бывают и discontiguous, такие как фразовые глаголы в шведском и нидерландском, например: ''lopen uit de hand'', ''äta upp'' и ''tilføje'': |
|||
* ''Twee jaar later '''loopt''' de situatie in het land onder de indruk van massabetogingen '''uit de hand'''.''{{slc|nl}} |
* ''Twee jaar later '''loopt''' de situatie in het land onder de indruk van massabetogingen '''uit de hand'''.''{{slc|nl}} |
||
Line 47: | Line 47: | ||
* '''''Føje''' et ord eller en sætning '''til''' den brugerdefinerede ordbog.''{{slc|da}} |
* '''''Føje''' et ord eller en sætning '''til''' den brugerdefinerede ordbog.''{{slc|da}} |
||
==Практическая часть== |
|||
==Practice== |
|||
=== |
===Простое multiword=== |
||
=== |
===Клитика=== |
||
Revision as of 16:46, 1 January 2012
Данный раздел будет посвящен знакомству с более продвинутыми темами в словарях Apertium. В первом разделе мы увидели, как вводить простые данные для словарей, и рассмотрели парадигмы. В данном разделе мы рассмотрим как вводить multiwords. This session aims to give an introduction to some more advanced topics in the Apertium dictionaries. We have seen in session 1 how to make simple dictionary entries, and looked at paradigms. In this session we'll make entries for multiwords.
Теория
Говоря о multiwords (или multiword expressions, MWEs), мы должны приниматься во внимание несколько аспектов.
Композиционность
TODO; find examples
A multi-word expression является композиционноым (compositional) когда его значение можно вывести из значений слов, которые его составляют. Однако это не означает, что оно останется композиционным при переводе. Например:
- Телефонная будка(
ru
) is compositional, значение становится понятным из значений двух компонентов. - Juego de etiquetas(
es
) is a multiword expression that is compositional, но значение каждого слова этого выражения в отдельности не является частым. - Итальянская забастовка(
ru
) is partially non-compositional, значение целого выражения непонятно если знать только значения двух составляющих слов. - Kafa çekmek(
tr
) is non-compositional, значение не может быть получено из значений ее компонентов.
Учитывать composit важно при переводе, потому что compositional multiword по ошибке может быть рассмотрено как два отдельных простых слова while a completely non-compositional one has to be fully listed.
Вариантность (изменяемость) Variability
TODO; find examples
В Multiwords могут меняться как окончания, например во французском языке vaut la peine, valait la peine, так и модифицироваться слова, в киргизском: ичим айланат, ичим көп айланат "у меня болит живот", "у меня болит животочень". Некоторые глаголы в Multiword могут принимать пассивную форму.
Окончания могут изменяться или только в одному компоненте:
Или в обоих компонентах:
Contiguity (смежность)
TODO; find examples
Наряду с внутренними возможностями изменений, multiwords делятся на contiguous (контактные) or discontiguous. Contiguous означает, что слова следуют друз за другом, разделенные пробелом. Большинство вышеприведенных примеров - это contiguous multiwords. Но бывают и discontiguous, такие как фразовые глаголы в шведском и нидерландском, например: lopen uit de hand, äta upp и tilføje:
- Twee jaar later loopt de situatie in het land onder de indruk van massabetogingen uit de hand.(
nl
) - Alla stygga barnen åt tigern upp.(
sv
) - Føje et ord eller en sætning til den brugerdefinerede ordbog.(
da
)