Difference between revisions of "Курсы машинного перевода для языков России/Раздел 2"

From Apertium
Jump to navigation Jump to search
(Created page with '{{TOCD}} This session aims to give an introduction to some more advanced topics in the Apertium dictionaries. We have seen in session 1 how to make simple dictionary entries, an…')
 
 
(7 intermediate revisions by 2 users not shown)
Line 1: Line 1:
 
{{TOCD}}
 
{{TOCD}}
   
  +
Данный раздел будет посвящен знакомству с более сложными темами в словарях Apertium. В первом разделе мы увидели, как делать простые словарные записи, и рассмотрели парадигмы. В данном разделе мы рассмотрим как вводить словосочетания.
This session aims to give an introduction to some more advanced topics in the Apertium dictionaries. We have seen in session 1 how to make simple dictionary entries, and looked at paradigms. In this session we'll make entries for multiwords.
 
   
==Theory==
+
==Теория==
   
  +
Говоря о словосочетаниях, мы должны приниматься во внимание несколько аспектов.
When talking about multiwords (or multiword expressions, MWEs), there are a few aspects to take into account.
 
   
  +
===Композиционность===
===Compositionality===
 
   
 
{{comment|TODO; find examples}}
 
{{comment|TODO; find examples}}
   
  +
Словосочетание является составным, если его значение можно вывести из значений слов, которые его составляют. Однако это не означает, что оно останется составным при переводе. Например:
A multi-word expression is compositional when its meaning can be deduced from the meanings of the words that comprise it. However, this is not to say that it will necessarily be compositional in translation. For example:
 
   
* ''Телефонная будка''{{slc|ru}} is compositional, the meaning can be inferred from the meanings of the two words.
+
* ''Телефонная будка''{{slc|ru}} - составное, значение становится понятным из значений двух компонентов.
  +
* ''Juego de etiquetas''{{slc|es}} - это составное словосочетание, но отдельные его компоненты в данных значениях употребляются редко.
* ''Juego de etiquetas''{{slc|es}} is a multiword expression that is compositional, but the sense that each of the content words has is not the most frequent one.
 
* ''Итальянская забастовка''{{slc|ru}} is partially non-compositional, the meaning cannot be deduced solely from the meanings of the constituent words.
+
* ''Итальянская забастовка''{{slc|ru}} - это частично не составное словосочетание, значение целого выражения непонятно, если знать отдельные значения двух составляющих слов.
  +
* ''Kafa çekmek''{{slc|tr}} - идиоматическое выражение, значение словосочетания не понятно из отдельных значений его компонентов.
* ''Kafa çekmek''{{slc|tr}} is non-compositional, the meaning cannot be deduced from the meanings of the constituent words.
 
   
  +
Учитывать композиционность важно при переводе, потому что составное словосочетние по ошибке может быть рассмотрено как два отдельных простых слова, хотя в системе должен быть список всех идиоматических выражение.
This is important for translation as a compositional multiword might be possible to treat just as two simple words, while a completely non-compositional one has to be fully listed.
 
   
  +
===Изменяемость===
===Variability===
 
   
 
{{comment|TODO; find examples}}
 
{{comment|TODO; find examples}}
   
  +
В словосочетаниях могут меняться как окончания, например, во французском языке ''vaut la peine, valait la peine'', так и слова, в киргизском: ''башым айланып жатат, башым '''катуу''' айланып жатат'' "у меня голова кружится", "у меня голова '''очень''' кружится". Некоторые глаголы в словосочетаниях могут принимать пассивную форму.
Multiwords may allow variation, either for inflection, e.g. French ''vaut la peine, valait la peine'', or by allowing modifying words, Kyrgyz: ''ичим айланат, ичим '''көп''' айланат'' "my stomach hurts", "my stomach hurts '''a lot'''". Multiword verbs may allow passivisation or not.
 
   
  +
Окончания слов могут изменяться или только в одном слове:
They may inflect in only one position, be it:
 
   
* At the end, ''pazartesi gün, pazartesi gün'''ler'''''{{slc|tr}} or
+
* в конце, ''pazartesi gün, pazartesi gün'''ler'''''{{slc|tr}} or
* In the middle ''hôtel de ville, hôtel'''s''' de ville''{{slc|fr}}
+
* в середине ''hôtel de ville, hôtel'''s''' de ville''{{slc|fr}}
   
  +
Или в обоих словах:
Or on both sides:
 
   
* ''телефонная будка, телефонн'''ой''' будк'''и''''' {{slc|ru}} and
+
* ''телефонная будка, телефонн'''ой''' будк'''и''''' {{slc|ru}} и
* ''ич айлан-, ич'''им''' айлан'''ат''''' {{slc|ky}}.
+
* ''баш айлан-, баш'''ым''' айлан'''ып жатат''''' {{slc|ky}}.
  +
* ''курсак ач-, курсаг'''ым''' ач'''ып жатат''''' {{slc|ky}}.
   
  +
===Контактность===
===Contiguity===
 
   
 
{{comment|TODO; find examples}}
 
{{comment|TODO; find examples}}
   
  +
Наряду с внутренними изменениями, словосочетания делятся на контактны или неконтактные. Контактные означает, что слова следуют друз за другом, разделенные пробелом. Большинство вышеприведенных примеров - это контактные словосочетания. Но бывают и неконтактные, такие как фразовые глаголы в шведском и нидерландском, например: ''lopen uit de hand'', ''äta upp'' и ''tilføje'':
Along with internal variation, multiwords may also be contiguous or discontiguous. Contiguous means that the words follow each other, separated by spaces. Most of the above examples are contiguous multiwords. They can also be discontiguous, like phrasal verbs in Swedish and Dutch, examples might be: ''lopen uit de hand'', ''äta upp'' and ''tilføje'':
 
   
 
* ''Twee jaar later '''loopt''' de situatie in het land onder de indruk van massabetogingen '''uit de hand'''.''{{slc|nl}}
 
* ''Twee jaar later '''loopt''' de situatie in het land onder de indruk van massabetogingen '''uit de hand'''.''{{slc|nl}}
Line 46: Line 47:
 
* '''''Føje''' et ord eller en sætning '''til''' den brugerdefinerede ordbog.''{{slc|da}}
 
* '''''Føje''' et ord eller en sætning '''til''' den brugerdefinerede ordbog.''{{slc|da}}
   
  +
==Практическая часть==
==Practice==
 
   
  +
===Простое словосочетание===
===Simple multiword===
 
   
===Clitic===
+
===Клитика===
   
   

Latest revision as of 12:00, 31 January 2012

Данный раздел будет посвящен знакомству с более сложными темами в словарях Apertium. В первом разделе мы увидели, как делать простые словарные записи, и рассмотрели парадигмы. В данном разделе мы рассмотрим как вводить словосочетания.

Теория[edit]

Говоря о словосочетаниях, мы должны приниматься во внимание несколько аспектов.

Композиционность[edit]

TODO; find examples

Словосочетание является составным, если его значение можно вывести из значений слов, которые его составляют. Однако это не означает, что оно останется составным при переводе. Например:

  • Телефонная будка(ru) - составное, значение становится понятным из значений двух компонентов.
  • Juego de etiquetas(es) - это составное словосочетание, но отдельные его компоненты в данных значениях употребляются редко.
  • Итальянская забастовка(ru) - это частично не составное словосочетание, значение целого выражения непонятно, если знать отдельные значения двух составляющих слов.
  • Kafa çekmek(tr) - идиоматическое выражение, значение словосочетания не понятно из отдельных значений его компонентов.

Учитывать композиционность важно при переводе, потому что составное словосочетние по ошибке может быть рассмотрено как два отдельных простых слова, хотя в системе должен быть список всех идиоматических выражение.

Изменяемость[edit]

TODO; find examples

В словосочетаниях могут меняться как окончания, например, во французском языке vaut la peine, valait la peine, так и слова, в киргизском: башым айланып жатат, башым катуу айланып жатат "у меня голова кружится", "у меня голова очень кружится". Некоторые глаголы в словосочетаниях могут принимать пассивную форму.

Окончания слов могут изменяться или только в одном слове:

  • в конце, pazartesi gün, pazartesi günler(tr) or
  • в середине hôtel de ville, hôtels de ville(fr)

Или в обоих словах:

  • телефонная будка, телефонной будки (ru) и
  • баш айлан-, башым айланып жатат (ky).
  • курсак ач-, курсагым ачып жатат (ky).

Контактность[edit]

TODO; find examples

Наряду с внутренними изменениями, словосочетания делятся на контактны или неконтактные. Контактные означает, что слова следуют друз за другом, разделенные пробелом. Большинство вышеприведенных примеров - это контактные словосочетания. Но бывают и неконтактные, такие как фразовые глаголы в шведском и нидерландском, например: lopen uit de hand, äta upp и tilføje:

  • Twee jaar later loopt de situatie in het land onder de indruk van massabetogingen uit de hand.(nl)
  • Alla stygga barnen åt tigern upp.(sv)
  • Føje et ord eller en sætning til den brugerdefinerede ordbog.(da)

Практическая часть[edit]

Простое словосочетание[edit]

Клитика[edit]