Курсы машинного перевода для языков России/Раздел 2

From Apertium
Jump to navigation Jump to search

Данный раздел будет посвящен знакомству с более продвинутыми темами в словарях Apertium. В первом разделе мы увидели, как вводить простые данные для словарей, и рассмотрели парадигмы. В данном разделе мы рассмотрим как вводить multiwords. This session aims to give an introduction to some more advanced topics in the Apertium dictionaries. We have seen in session 1 how to make simple dictionary entries, and looked at paradigms. In this session we'll make entries for multiwords.

Теория

Говоря о multiwords (или multiword expressions, MWEs), мы должны приниматься во внимание несколько аспектов.

Композиционность

TODO; find examples

A multi-word expression является композиционноым (compositional) когда его значение можно вывести из значений слов, которые его составляют. Однако это не означает, что оно останется композиционным при переводе. Например:

  • Телефонная будка(ru) is compositional, значение становится понятным из значений двух компонентов.
  • Juego de etiquetas(es) is a multiword expression that is compositional, но значение каждого слова этого выражения в отдельности не является частым.
  • Итальянская забастовка(ru) is partially non-compositional, значение целого выражения непонятно если знать только значения двух составляющих слов.
  • Kafa çekmek(tr) is non-compositional, значение не может быть получено из значений ее компонентов.

Учитывать composit важно при переводе, потому что compositional multiword по ошибке может быть рассмотрено как два отдельных простых слова while a completely non-compositional one has to be fully listed.

Вариантность (изменяемость) Variability

TODO; find examples

В Multiwords могут меняться как окончания, например во французском языке vaut la peine, valait la peine, так и модифицироваться слова, в киргизском: ичим айланат, ичим көп айланат "у меня болит живот", "у меня болит животочень". Некоторые глаголы в Multiword могут принимать пассивную форму.

Окончания могут изменяться или только в одному компоненте:

  • в конце, pazartesi gün, pazartesi günler(tr) or
  • в середине hôtel de ville, hôtels de ville(fr)

Или в обоих компонентах:

  • телефонная будка, телефонной будки (ru) and
  • ич айлан-, ичим айланат (ky).

Contiguity (смежность)

TODO; find examples

Наряду с внутренними возможностями изменений, multiwords делятся на contiguous (контактные) or discontiguous. Contiguous означает, что слова следуют друз за другом, разделенные пробелом. Большинство вышеприведенных примеров - это contiguous multiwords. Но бывают и discontiguous, такие как фразовые глаголы в шведском и нидерландском, например: lopen uit de hand, äta upp и tilføje:

  • Twee jaar later loopt de situatie in het land onder de indruk van massabetogingen uit de hand.(nl)
  • Alla stygga barnen åt tigern upp.(sv)
  • Føje et ord eller en sætning til den brugerdefinerede ordbog.(da)

Практическая часть

Простое multiword

Клитика