Difference between revisions of "Курсы машинного перевода для языков России/Раздел 2"
Line 1: | Line 1: | ||
{{TOCD}} |
{{TOCD}} |
||
Данный раздел будет посвящен знакомству с более |
Данный раздел будет посвящен знакомству с более сложными инструментами в словарях Apertium. В первом разделе мы увидели, как делать простые записи для словарей, и рассмотрели парадигмы. В данном разделе мы рассмотрим как вводить словосочетания. |
||
This session aims to give an introduction to some more advanced topics in the Apertium dictionaries. We have seen in session 1 how to make simple dictionary entries, and looked at paradigms. In this session we'll make entries for multiwords. |
This session aims to give an introduction to some more advanced topics in the Apertium dictionaries. We have seen in session 1 how to make simple dictionary entries, and looked at paradigms. In this session we'll make entries for multiwords. |
||
==Теория== |
==Теория== |
||
Говоря о multiwords (или multiword expressions, MWEs), мы должны приниматься во внимание несколько аспектов. |
Говоря о словосочетаниях multiwords (или multiword expressions, MWEs), мы должны приниматься во внимание несколько аспектов. |
||
===Композиционность=== |
===Композиционность=== |
||
Line 12: | Line 12: | ||
{{comment|TODO; find examples}} |
{{comment|TODO; find examples}} |
||
Словосочетание является композиционноым (compositional) когда его значение можно вывести из значений слов, которые его составляют. Однако это не означает, что оно останется композиционным при переводе. Например: |
|||
* ''Телефонная будка''{{slc|ru}} is compositional, значение становится понятным из значений двух компонентов. |
* ''Телефонная будка''{{slc|ru}} is compositional, значение становится понятным из значений двух компонентов. |
||
* ''Juego de etiquetas''{{slc|es}} |
* ''Juego de etiquetas''{{slc|es}} - это compositional словосочетание, но отдельные его компоненты в данных значениях употребляются редко. |
||
* ''Итальянская забастовка''{{slc|ru}} is partially non-compositional, значение целого выражения непонятно если знать только значения двух составляющих слов. |
* ''Итальянская забастовка''{{slc|ru}} is partially non-compositional, значение целого выражения непонятно если знать только значения двух составляющих слов. |
||
* ''Kafa çekmek''{{slc|tr}} |
* ''Kafa çekmek''{{slc|tr}} - коллокация (non-compositional), значение не может быть получено из значений его компонентов. |
||
Учитывать composit важно при переводе, потому что compositional multiword по ошибке может быть рассмотрено как два отдельных простых слова while a completely non-compositional one has to be fully listed. |
Учитывать composit важно при переводе, потому что compositional словосочетние multiword по ошибке может быть рассмотрено как два отдельных простых слова, хотя while a completely non-compositional one has to be fully listed. |
||
===Изменяемость=== |
|||
===Вариантность (изменяемость) Variability=== |
|||
{{comment|TODO; find examples}} |
{{comment|TODO; find examples}} |
||
В |
В словосочетаниях могут меняться как окончания, например, во французском языке ''vaut la peine, valait la peine'', так и слова, в киргизском: ''ичим айланат, ичим '''көп''' айланат'' "у меня болит живот", "у меня болит живот'''очень'''". Некоторые глаголы в словосочетаниях могут принимать пассивную форму. |
||
Окончания могут изменяться или только в одному |
Окончания слов могут изменяться или только в одному из компонентов: |
||
* в конце, ''pazartesi gün, pazartesi gün'''ler'''''{{slc|tr}} or |
* в конце, ''pazartesi gün, pazartesi gün'''ler'''''{{slc|tr}} or |
||
Line 41: | Line 41: | ||
{{comment|TODO; find examples}} |
{{comment|TODO; find examples}} |
||
Наряду с внутренними |
Наряду с внутренними изменениями, словосочетания делятся на contiguous (контактные) или (неконтактные) or discontiguous. Contiguous означает, что слова следуют друз за другом, разделенные пробелом. Большинство вышеприведенных примеров - это contiguous multiwords. Но бывают и discontiguous, такие как фразовые глаголы в шведском и нидерландском, например: ''lopen uit de hand'', ''äta upp'' и ''tilføje'': |
||
* ''Twee jaar later '''loopt''' de situatie in het land onder de indruk van massabetogingen '''uit de hand'''.''{{slc|nl}} |
* ''Twee jaar later '''loopt''' de situatie in het land onder de indruk van massabetogingen '''uit de hand'''.''{{slc|nl}} |
||
Line 49: | Line 49: | ||
==Практическая часть== |
==Практическая часть== |
||
===Простое |
===Простое словосочетание=== |
||
===Клитика=== |
===Клитика=== |
Revision as of 17:48, 1 January 2012
Данный раздел будет посвящен знакомству с более сложными инструментами в словарях Apertium. В первом разделе мы увидели, как делать простые записи для словарей, и рассмотрели парадигмы. В данном разделе мы рассмотрим как вводить словосочетания. This session aims to give an introduction to some more advanced topics in the Apertium dictionaries. We have seen in session 1 how to make simple dictionary entries, and looked at paradigms. In this session we'll make entries for multiwords.
Теория
Говоря о словосочетаниях multiwords (или multiword expressions, MWEs), мы должны приниматься во внимание несколько аспектов.
Композиционность
TODO; find examples
Словосочетание является композиционноым (compositional) когда его значение можно вывести из значений слов, которые его составляют. Однако это не означает, что оно останется композиционным при переводе. Например:
- Телефонная будка(
ru
) is compositional, значение становится понятным из значений двух компонентов. - Juego de etiquetas(
es
) - это compositional словосочетание, но отдельные его компоненты в данных значениях употребляются редко. - Итальянская забастовка(
ru
) is partially non-compositional, значение целого выражения непонятно если знать только значения двух составляющих слов. - Kafa çekmek(
tr
) - коллокация (non-compositional), значение не может быть получено из значений его компонентов.
Учитывать composit важно при переводе, потому что compositional словосочетние multiword по ошибке может быть рассмотрено как два отдельных простых слова, хотя while a completely non-compositional one has to be fully listed.
Изменяемость
TODO; find examples
В словосочетаниях могут меняться как окончания, например, во французском языке vaut la peine, valait la peine, так и слова, в киргизском: ичим айланат, ичим көп айланат "у меня болит живот", "у меня болит животочень". Некоторые глаголы в словосочетаниях могут принимать пассивную форму.
Окончания слов могут изменяться или только в одному из компонентов:
Или в обоих компонентах:
Contiguity (смежность)
TODO; find examples
Наряду с внутренними изменениями, словосочетания делятся на contiguous (контактные) или (неконтактные) or discontiguous. Contiguous означает, что слова следуют друз за другом, разделенные пробелом. Большинство вышеприведенных примеров - это contiguous multiwords. Но бывают и discontiguous, такие как фразовые глаголы в шведском и нидерландском, например: lopen uit de hand, äta upp и tilføje:
- Twee jaar later loopt de situatie in het land onder de indruk van massabetogingen uit de hand.(
nl
) - Alla stygga barnen åt tigern upp.(
sv
) - Føje et ord eller en sætning til den brugerdefinerede ordbog.(
da
)