Difference between revisions of "Курсы машинного перевода для языков России/Раздел 0"

From Apertium
Jump to navigation Jump to search
 
(33 intermediate revisions by 4 users not shown)
Line 1: Line 1:
<center><big>Раздел 0: Обзор</big></center>
 
 
{{TOCD}}
 
{{TOCD}}
 
В данном разделе будет дан краткий обзор такого метода перевода как машинный перевод, основанного на использовании введенных правил и представлена работа открытой платформы свободного машинного перевода Apertium
 
В данном разделе будет дан краткий обзор такого метода перевода как машинный перевод, основанного на использовании введенных правил и представлена работа открытой платформы свободного машинного перевода Apertium
Line 10: Line 9:
 
Если кратко представить корпусный МП, то его можно разделить на две главные подгруппы: подгруппа, в основе которой лежат статистические данные, и подгруппа, основанная на примерах. Теоретически, основной принцип работы статистического машинного перевода заключается в следующем: берется набор ранее переведенных предложений (параллельный корпус) и подсчитывается какие символы совпадают наиболее часто. Всем символам, которые совпадают, присваивается признак вероятности. При переводе нового предложения переводчик рассматривает все слова (символы), которым присвоен признак вероятности, их вероятности комбинируется, делается несколько вариантов возможных переводов и затем выбирается вариант перевода с самой высокой степенью вероятности. Первые системы статистического МП учитывали только совпадение слов, но более новые системы могут учитывать совпадения последовательных рядов слов (фраз) и иерархических деревьев.
 
Если кратко представить корпусный МП, то его можно разделить на две главные подгруппы: подгруппа, в основе которой лежат статистические данные, и подгруппа, основанная на примерах. Теоретически, основной принцип работы статистического машинного перевода заключается в следующем: берется набор ранее переведенных предложений (параллельный корпус) и подсчитывается какие символы совпадают наиболее часто. Всем символам, которые совпадают, присваивается признак вероятности. При переводе нового предложения переводчик рассматривает все слова (символы), которым присвоен признак вероятности, их вероятности комбинируется, делается несколько вариантов возможных переводов и затем выбирается вариант перевода с самой высокой степенью вероятности. Первые системы статистического МП учитывали только совпадение слов, но более новые системы могут учитывать совпадения последовательных рядов слов (фраз) и иерархических деревьев.
   
В противовес этому, машинный перевод, основанный на анализе примеров, может быть назван переводом по аналогии. В нем также используется параллельные корпуса, но, вместо того чтобы обращаться к признакам вероятности слов, переводчик учится делать анализ на основе примеров. Например, если будет дана пара предложений (Девочке нравятся кошки. {{slc|ru}} → Кызга мышыктар жагат. {{slc|ky}} и Девочке нравятся слоны. → Кызга пилдер жагат.) переводчик может дать следующий пример перевода (AДевочке нравятся X → Кызга X жагат). При переводе нового предложения, переводчик обращается и анализирует данные части предложения и заменяет их.
+
В противовес этому, машинный перевод, основанный на анализе примеров, может быть назван переводом по аналогии. В нем также используется параллельные корпуса, но, вместо того чтобы обращаться к признакам вероятности слов, переводчик учится делать анализ на основе примеров. Например, если будет дана пара предложений (Девочке нравятся кошки. {{slc|ru}} → Кызга мышыктар жагат. {{slc|ky}} и Девочке нравятся слоны. → Кызга пилдер жагат.) переводчик может предложить следующий пример перевода (AДевочке нравятся X → Кызга X жагат). При переводе нового предложения, переводчик обращается и анализирует данные части предложения и заменяет их.
   
Автоматическое применение большего пула переводных текстов (переводной памяти) к переводному тексту может быть также названо видом машинного перевода с использованием корпуса. На самом деле, границы между статистическим машинным переводом и переводом, которые использует и анализирует примеры достаточно размыты. И в том и в другом методе есть свои недостатки и преимущества. При использовании методов машинного перевода с использованием корпуса, переводной текст обычно выглядит более естественным, но может страдать сам смысл перевода, при использовании систем, которые используют метод, основанный на применении правил, перевод выглядит не таким гладким, но более точно передавать смысл с языка оригинала.
+
Автоматическое применение большего пула переводных текстов (переводной памяти) к тексту может быть также названо видом машинного перевода с использованием корпуса. На самом деле, границы между статистическим машинным переводом и переводом, которые использует и анализирует примеры, достаточно размыты. И в том и в другом методе есть свои недостатки и преимущества. При использовании методов машинного перевода с использованием корпуса, переводной текст обычно выглядит более естественным, но может страдать сам смысл перевода, при использовании систем, которые используют метод, основанный на применении правил, перевод выглядит не таким гладким, но более точно передает смысл с языка оригинала.
   
Системы, основанные на правила, и системы, в которых используются корпус, могут быть объединены различными способами и представлять собой смешанную систему. Например, можно создать смешанную систему, где корпусный машинный перевод помогает найти эквиваленты, а затем применяется метод, основанный на правилах, в случае, если не найдено ни одного совпадающего образца.
+
Системы, основанные на правилах, и системы, в которых используются корпус, могут быть объединены различными способами и представлять собой смешанную систему. Например, можно создать смешанную систему, где корпусный машинный перевод помогает найти эквиваленты, а затем применяется метод, основанный на правилах, в случае, если не найдено ни одного совпадающего образца.
   
 
==Виды систем машинного перевода==
 
==Виды систем машинного перевода==
   
 
===Прямой===
 
===Прямой===
Прямой, или пословный машинный перевод осуществляется следующим образом: из языка источника считывается по одному слову за один раз, затем слово ищется в двуязычном списке слов произвольной формы. Слова могут быть удалены или не учтены, и, могут быть переведены одним или несколькими словами. Грамматический анализ не проводится, так что даже такие простые ошибки, как соглашение в роде и числе между существительным и определением к нему останется в языке перевода на выходе.
+
Прямой, или пословный машинный перевод осуществляется следующим образом: из языка источника считывается по одному слову за один раз, затем слово ищется в двуязычном списке слов поверхностной формы (surface forms). Слова могут быть удалены или не учтены, и, могут быть переведены одним или несколькими словами. Грамматический анализ не проводится, так что даже такие простые ошибки, как соглашение в роде и числе между существительным и определением к нему останется в языке перевода на выходе.
   
 
[[File:Session0 primer1.svg|center]]
 
[[File:Session0 primer1.svg|center]]
Line 35: Line 34:
 
===Язык-посредник===
 
===Язык-посредник===
   
В машинном переводе, основанного на переносе, правила написаны на основе пара-на-пару, что делает их особенными для языковой пары. В подходе "язык-посредник", промежуточная репрезентация полностью независимым от языка. Есть ряд преимуществ такого подхода, но также и недостатки. Преимущества в том, что есть возможность добавить новый язык в существующую систему МП, необходимо лишь написать анализатор и генератор для нового языка, а не правила переноса между новым языком и всех существующих языков. Недостаток в том что очень трудно определить язык-посредник, который может действительно представлять все нюансы всех естественных языках, и на практике, язык-посредник используются только для ограниченных областей перевода.
+
В машинном переводе, основанном на переносе, правила написаны по принципу пара-на-пару, что делает их особенными для языковой пары. В подходе "язык-посредник", промежуточная репрезентация полностью независима от языка. Есть ряд преимуществ такого подхода, но также и недостатки. Преимущества в том, что есть возможность добавить новый язык в существующую систему МП, необходимо лишь написать анализатор и генератор для нового языка, а не правила переноса между новым языком и всеми существующими языками. Недостаток в том, что очень трудно определить язык-посредник, который может действительно представлять все нюансы всех естественных языков, и на практике, язык-посредник используются только для ограниченных областей перевода.
   
 
==Проблемы машинного перевода==
 
==Проблемы машинного перевода==
Line 43: Line 42:
 
<center>'''Форма не полностью определяет содержание.'''</center>
 
<center>'''Форма не полностью определяет содержание.'''</center>
   
Это также называется проблемой омонимии. Проблема состоит в том, что многие предложения на одном языке могут иметь более чем одну интерпретацию и эти интерпретации могут быть переведены по разному на разные языки. Рассмотрим следующий пример:
+
Это также называется проблемой омонимии. Проблема состоит в том, что многие предложения на одном языке могут иметь более чем одну интерпретацию и эти интерпретации могут быть переведены по разному на разные языки. Рассмотрим следующий пример на финнском языке:
   
  +
* Tuovatko he uutisia Kreikasta? (Греция как предмет)
* Бүгүн мен Аннанын кечээ таанышкан досу менен сүйлөштүм. {{slc|ky}}
 
  +
** → Они приносили новости о Грецие? {{slc|ru}}
** → Сегодня с поговорил с другом Анны, с которым '''Анна''' познакомилась. {{slc|ru}}
 
  +
** → Греция жөнүндө жаңылык алып келди. {{slc|ky}}
** Бүгүн мен Аннанын кечээ таанышкан досу менен сүйлөштүм. {{slc|ky}}
 
  +
* Tuovatko he uutisia Kreikasta? (Греция как источник)
* → Сегодня с поговорил с другом Анны, с которым '''я''' вчера познакомился. {{slc|ru}}
 
  +
** → Они приносили новости из Греции? {{slc|ru}}
  +
** → Грециядан жаңылык алып келди. {{slc|ky}}
  +
  +
Но иногда эта многозначность может быть сохранена, например, при переводе этой же фразы на другой тюркский язык:
  +
  +
* Traían noticias de Grecia? (Греция как предмет и источник)
  +
** → Traían notícias de Grecía? {{slc|es}}
   
 
===Синтез===
 
===Синтез===
 
<center>'''Содержание не полностью определяет форму.''' </center>
 
<center>'''Содержание не полностью определяет форму.''' </center>
Проблема в том, что в данном языке есть не один способов для передачи одного и того же значения. На пр. на чувашском языке: "сколько времени?"/"который час?"...
+
Проблема в том, что в данном языке не один способ передачи одного и того же значения. На пр. на чувашском языке: "сколько времени?"/"который час?"...
   
 
:Эсир мӗнле пурӑнатӑр?
 
:Эсир мӗнле пурӑнатӑр?
Line 59: Line 65:
 
:Мӗнле еҫсем?
 
:Мӗнле еҫсем?
   
Все эти вопросы требуют одинакового ответа, но их частота и место употребления могут различаться.
+
Все эти вопросы требуют одинакового ответа, но их частотность и место употребления могут различаться.
В Apertium, на каждое введенное предложение, предлагается один вариант. От создателя системы зависит, какой вариант перевода будет предлагать система. Часто мы рекомендуем чтобы это был наиболее литературный перевод, так как это снижает необходимость в правилах переноса.
+
В Apertium, на каждое введенное предложение, предлагается один вариант. От создателя системы зависит, какой вариант перевода будет предлагать система. Часто мы рекомендуем, чтобы это был наиболее литературный перевод, так как это снижает необходимость в правилах переноса.
   
 
===Перенос===
 
===Перенос===
Line 67: Line 73:
 
В языках существуют различные способы передачи одного и того же значения. И эти значения обычно несовместимы между языками. Рассмотрите следующие примеры предложений, которые выражают одно и то же значение:
 
В языках существуют различные способы передачи одного и того же значения. И эти значения обычно несовместимы между языками. Рассмотрите следующие примеры предложений, которые выражают одно и то же значение:
   
  +
* Мен (сууга) сүзгөндү жакшы көрөм.
:ПРИМЕР 5
 
  +
** Мен = {{sc|subject}}, сүзгөндү = {{sc|dir. object}}, жакшы.көрөм = {{sc|verb}}
  +
* Маған (суда) жүзу ұнайды.
  +
** Маған = {{sc|ind. object}}, жүзу = {{sc|subject}}, ұнайды = {{sc|verb}}.
  +
* Minä pidän uimisesta
  +
** Minä = {{sc|subject}}, pidän = {{sc|verb}}, uimisesta = {{sc|adverbial}}
   
В системе Apertium, применяются правила, которые трансформируют структуру языка источника в структуру целевого языка, используя последовательность лексических форм в качестве промежуточной репрезентации. Более подробная информация в разделе 5: Основы структурного переноса.
+
В системе Apertium, применяются правила, которые трансформируют структуру языка источника в структуру целевого языка, используя последовательность лексических форм в качестве промежуточной репрезентации. Более подробная информация в разделе 5: Основы структурного переноса.
   
 
===Описание===
 
===Описание===
Line 75: Line 86:
 
<center>'''Как отразить информация о процессе перевода на языке компьютера.'''</center>
 
<center>'''Как отразить информация о процессе перевода на языке компьютера.'''</center>
   
Последней проблемой является проблема описания. Чтобы создать систему машинного перевода люди со знанием обоих языков должны сесть и систематизировать-кодировать свои знания в таком виде, чтобы компьютер смог их обработать.
+
Последней проблемой является проблема описания. Чтобы создать систему машинного перевода, люди со знанием обоих языков должны систематизировать-кодировать свои знания в таком виде, чтобы компьютер смог их обработать.
   
 
Так как перевод часто является бессознательным процессом, мы переводим не задумываясь о правилах, которыми мы пользуемся. Компьютеры не имеют такой способности, им нужны конкретные инструкции что именно нужно делать. Перевод не получится, если в компьютер не будет занесена информация по переводу.
 
Так как перевод часто является бессознательным процессом, мы переводим не задумываясь о правилах, которыми мы пользуемся. Компьютеры не имеют такой способности, им нужны конкретные инструкции что именно нужно делать. Перевод не получится, если в компьютер не будет занесена информация по переводу.
Line 81: Line 92:
 
Но для многих предложений данная информация необязательна:
 
Но для многих предложений данная информация необязательна:
   
  +
Например, на славянских языках:
:ПРИМЕР 6
 
  +
* Апертиум - система машинного перевода. {{slc|ru}}
  +
* Apertium je sistem za mašinskoga prevođenja. {{slc|sh}}
  +
* Apertium je sistem za računalniško prevajanje. {{slc|sl}}
  +
  +
И на тюркских языках:
  +
* Apertium bir makine çevirisi sistemidir. {{slc|tr}}
  +
* Апертиум - машиналык котормо системасы. {{slc|ky}}
  +
* Апертиум - машиналық аудару системасы. {{slc|kk}}
  +
* Апертиум - машина тәрҗемәләве системасы. {{slc|tt}}
  +
* Апертиум - машина тәржемәләүе системаһы. {{slc|ba}}
  +
  +
и на уральских языках:
  +
* Apertium on konekäännösjärjestelmä. {{slc|fi}}
   
 
==Практика==
 
==Практика==
Line 91: Line 115:
 
===Применение===
 
===Применение===
   
Чтобы пользоваться системой Apertium, сначала откройте first open up a terminal. Теперь <code>cd</code> в раздел языковой пары, которую хотите протестировать.
+
Чтобы пользоваться системой Apertium, сначала откройте терминал. Теперь зайдите в раздел языковой пары (через <code>cd</code>), которую хотите протестировать.
   
 
<pre>
 
<pre>
Line 97: Line 121:
 
</pre>
 
</pre>
   
Вы можете протестировать это при помощи следующей команды:
+
Вы можете протестировать ее при помощи следующей команды:
   
 
<pre>
 
<pre>
$ echo "Text that you want to translate" | apertium -d . aa-bb
+
$ echo "Текст, который вы хотите перевести." | apertium -d . aa-bb
 
</pre>
 
</pre>
   
Line 118: Line 142:
 
! Файл !! Вид !! Описание !! Раздел(ы)
 
! Файл !! Вид !! Описание !! Раздел(ы)
 
|-
 
|-
| <code>apertium-tt-ba.tt.lexc</code> || Словарь || Tatar morphotactic dictionary, used for analysis and generation || [[Машинный перевод для языков России/Раздел 1|1]] [[Машинный перевод для языков России/Раздел 2|2]]
+
| <code>apertium-tt-ba.tt.lexc</code> || Словарь || Словарь морфотактики татарского языка, для анализа и формирования || [[Машинный перевод для языков России/Раздел 1|1]] [[Машинный перевод для языков России/Раздел 2|2]]
 
|-
 
|-
| <code>apertium-tt-ba.tt.twol</code> || Фонологические правила || Tatar morphophonological rules || [[Машинный перевод для языков России/Раздел 1|1]] [[Машинный перевод для языков России/Session 2|2]]
+
| <code>apertium-tt-ba.tt.twol</code> || Фонологические правила || Морфонологические правила татарского языка || [[Машинный перевод для языков России/Раздел 1|1]] [[Машинный перевод для языков России/Session 2|2]]
  +
|-
  +
| <code>apertium-tt-ba.ba.lexc</code> || Словарь || Словарь морфотактики башкирского языка, для анализа и формирования || [[Машинный перевод для языков России/Раздел 1|1]] [[Машинный перевод для языков России/Раздел 2|2]]
  +
|-
  +
| <code>apertium-tt-ba.ba.twol</code> || Фонологические правила || Морфонологические правила башкирского языка || [[Машинный перевод для языков России/Session 1|1]] [[Машинный перевод для языков России/Раздел 2|2]]
 
|-
 
|-
| <code>apertium-tt-ba.ba.lexc</code> || Словарь || Bashkir morphotactic dictionary, used for analysis and generation || [[Машинный перевод для языков России/Раздел 1|1]] [[Машинный перевод для языков России/Раздел 2|2]]
+
| <code>apertium-tt-ba.tt.rlx</code> || Правила по разрешению неоднозначности || Грамматика ограничений татарского языка для снятия морфологической неоднозначности || [[Машинный перевод для языков России/Раздел 3|3]]
 
|-
 
|-
| <code>apertium-tt-ba.ba.twol</code> || Фонологические правила || Bashkir morphophonological rules || [[Машинный перевод для языков России/Session 1|1]] [[Машинный перевод для языков России/Раздел 2|2]]
+
| <code>apertium-tt-ba.ba.rlx</code> || Правила по разрешению неоднозначности || Грамматика ограничений башкирского языка для снятия морфологической неоднозначности || [[Машинный перевод для языков России/Раздел 3|3]]
 
|-
 
|-
| <code>apertium-tt-ba.tt-ba.dix</code> || Словарь || Tatar&mdash;Bashkir bilingual dictionary, used for lexical transfer || [[Машинный перевод для языков России/Раздел 4|4]]
+
| <code>apertium-tt-ba.tt-ba.dix</code> || Словарь || Татарско&mdash;башкирский двуязычный словарь для лексического переноса || [[Машинный перевод для языков России/Раздел 4|4]]
 
|-
 
|-
| <code>apertium-tt-ba.tt.rlx</code> || Tagging rules || Tatar constraint grammar, used for morphological disambiguation || [[Машинный перевод для языков России/Раздел 3|3]]
+
| <code>apertium-tt-ba.tt.lrx</code> || Правила лексической выборки || Правила лексической выборки для татарского языка || [[Машинный перевод для языков России/Раздел 4|4]]
 
|-
 
|-
| <code>apertium-tt-ba.ba.rlx</code> || Tagging rules || Bashkir constraint grammar, used for morphological disambiguation || [[Машинный перевод для языков России/Раздел 3|3]]
+
| <code>apertium-tt-ba.ba.lrx</code> || Правила лексической выборки || Правила лексической выборки для башкирского языка || [[Машинный перевод для языков России/Раздел 4|4]]
 
|-
 
|-
| <code>apertium-tt-ba.tt-ba.t1x</code> || Правила по переносу || Tatar→Bashkir first-level rule file, for structural transfer || [[Машинный перевод для языков России/Раздел 5|5]] [[Машинный перевод для языков России/Раздел 6|6]]
+
| <code>apertium-tt-ba.tt-ba.t1x</code> || Правила переноса || Татарско-башкирский файл с правилами первого уровня для структурного переноса || [[Машинный перевод для языков России/Раздел 5|5]] [[Машинный перевод для языков России/Раздел 6|6]]
 
|-
 
|-
 
|-
 
|-
| <code>apertium-tt-ba.ba-tt.t1x</code> || Правила по переносу || Bashkir→Tatar first-level rule file, for structural transfer || [[Машинный перевод для языков России/Раздел 5|5]] [[Машинный перевод для языков России/Раздел 6|6]]
+
| <code>apertium-tt-ba.ba-tt.t1x</code> || Правила переноса || Башкирско-татарский файл с правилами первого уровня для структурного переноса || [[Машинный перевод для языков России/Раздел 5|5]] [[Машинный перевод для языков России/Раздел 6|6]]
 
|-
 
|-
 
|}
 
|}

Latest revision as of 09:26, 2 February 2012

В данном разделе будет дан краткий обзор такого метода перевода как машинный перевод, основанного на использовании введенных правил и представлена работа открытой платформы свободного машинного перевода Apertium

Существуют два принципиально отличающихся друг от друга вида машинного перевода:

  • Машинный перевод, основанный на правилах (Rule Based Machine Translation), его также называют символьным машинным переводом; Apertium как раз относится к данному виду и этот раздел посвящен подвиду машинного перевода, основанного на правилах
  • Корпусный машинный перевод; при таком переводе для перевода новых предложений переводчик обращается к пулу из ранее переведенных предложений.

Если кратко представить корпусный МП, то его можно разделить на две главные подгруппы: подгруппа, в основе которой лежат статистические данные, и подгруппа, основанная на примерах. Теоретически, основной принцип работы статистического машинного перевода заключается в следующем: берется набор ранее переведенных предложений (параллельный корпус) и подсчитывается какие символы совпадают наиболее часто. Всем символам, которые совпадают, присваивается признак вероятности. При переводе нового предложения переводчик рассматривает все слова (символы), которым присвоен признак вероятности, их вероятности комбинируется, делается несколько вариантов возможных переводов и затем выбирается вариант перевода с самой высокой степенью вероятности. Первые системы статистического МП учитывали только совпадение слов, но более новые системы могут учитывать совпадения последовательных рядов слов (фраз) и иерархических деревьев.

В противовес этому, машинный перевод, основанный на анализе примеров, может быть назван переводом по аналогии. В нем также используется параллельные корпуса, но, вместо того чтобы обращаться к признакам вероятности слов, переводчик учится делать анализ на основе примеров. Например, если будет дана пара предложений (Девочке нравятся кошки. (ru) → Кызга мышыктар жагат. (ky) и Девочке нравятся слоны. → Кызга пилдер жагат.) переводчик может предложить следующий пример перевода (AДевочке нравятся X → Кызга X жагат). При переводе нового предложения, переводчик обращается и анализирует данные части предложения и заменяет их.

Автоматическое применение большего пула переводных текстов (переводной памяти) к тексту может быть также названо видом машинного перевода с использованием корпуса. На самом деле, границы между статистическим машинным переводом и переводом, которые использует и анализирует примеры, достаточно размыты. И в том и в другом методе есть свои недостатки и преимущества. При использовании методов машинного перевода с использованием корпуса, переводной текст обычно выглядит более естественным, но может страдать сам смысл перевода, при использовании систем, которые используют метод, основанный на применении правил, перевод выглядит не таким гладким, но более точно передает смысл с языка оригинала.

Системы, основанные на правилах, и системы, в которых используются корпус, могут быть объединены различными способами и представлять собой смешанную систему. Например, можно создать смешанную систему, где корпусный машинный перевод помогает найти эквиваленты, а затем применяется метод, основанный на правилах, в случае, если не найдено ни одного совпадающего образца.

Виды систем машинного перевода[edit]

Прямой[edit]

Прямой, или пословный машинный перевод осуществляется следующим образом: из языка источника считывается по одному слову за один раз, затем слово ищется в двуязычном списке слов поверхностной формы (surface forms). Слова могут быть удалены или не учтены, и, могут быть переведены одним или несколькими словами. Грамматический анализ не проводится, так что даже такие простые ошибки, как соглашение в роде и числе между существительным и определением к нему останется в языке перевода на выходе.

Session0 primer1.svg

Перенос[edit]

Машинный перевод, основанный на переносе, работает таким образом, что, сначала язык-источник преобразовывается в зависимую от языка промежуточную репрезентацию, а затем правила применяются уже к этой промежуточной репрезентации с целью преобразования структуры языка-источника в структуру языка перевода. Перевод осуществляется с этой репрезентации с использованием как двуязычных словарей, так и грамматических правил.

Session0 primer2.svg

Различия могут быть в уровне абстракции этой промежуточной репрезентации. Можно выделить две большие группы: неглубокая передача и глубокая передача. При неглубоком переносе машинного перевода промежуточная репрезентация, как правило, основывается или на морфологии или на поверхностном синтаксисе. При глубокой передачи МП промежуточная репрезентация обычно включает в себя что-то похожее на дерево разбора или графическую структуру (см. изображение справа)

Машинный перевод, основанный на переносе обычно работает следующим образом: сначала текст перевода анализируется и снимается морфологическая неоднозначность (а в случае глубокой передачи, синтаксическая) с целью получения промежуточной репрезентации исходного языка. Процесс переноса затем преобразует эту финальную репрезентацию (все еще на языке оригинала) в репрезентацию на том же уровне абстракции в языке перевода. Из репрезентации языка перевода, генерируется язык перевода.

Язык-посредник[edit]

В машинном переводе, основанном на переносе, правила написаны по принципу пара-на-пару, что делает их особенными для языковой пары. В подходе "язык-посредник", промежуточная репрезентация полностью независима от языка. Есть ряд преимуществ такого подхода, но также и недостатки. Преимущества в том, что есть возможность добавить новый язык в существующую систему МП, необходимо лишь написать анализатор и генератор для нового языка, а не правила переноса между новым языком и всеми существующими языками. Недостаток в том, что очень трудно определить язык-посредник, который может действительно представлять все нюансы всех естественных языков, и на практике, язык-посредник используются только для ограниченных областей перевода.

Проблемы машинного перевода[edit]

Анализ[edit]

Форма не полностью определяет содержание.

Это также называется проблемой омонимии. Проблема состоит в том, что многие предложения на одном языке могут иметь более чем одну интерпретацию и эти интерпретации могут быть переведены по разному на разные языки. Рассмотрим следующий пример на финнском языке:

  • Tuovatko he uutisia Kreikasta? (Греция как предмет)
    • → Они приносили новости о Грецие? (ru)
    • → Греция жөнүндө жаңылык алып келди. (ky)
  • Tuovatko he uutisia Kreikasta? (Греция как источник)
    • → Они приносили новости из Греции? (ru)
    • → Грециядан жаңылык алып келди. (ky)

Но иногда эта многозначность может быть сохранена, например, при переводе этой же фразы на другой тюркский язык:

  • Traían noticias de Grecia? (Греция как предмет и источник)
    • → Traían notícias de Grecía? (es)

Синтез[edit]

Содержание не полностью определяет форму.

Проблема в том, что в данном языке не один способ передачи одного и того же значения. На пр. на чувашском языке: "сколько времени?"/"который час?"...

Эсир мӗнле пурӑнатӑр?
Мӗнле пурнӑҫсем?
Мӗнле халсем?
Мӗнле еҫсем?

Все эти вопросы требуют одинакового ответа, но их частотность и место употребления могут различаться. В Apertium, на каждое введенное предложение, предлагается один вариант. От создателя системы зависит, какой вариант перевода будет предлагать система. Часто мы рекомендуем, чтобы это был наиболее литературный перевод, так как это снижает необходимость в правилах переноса.

Перенос[edit]

Одно и тоже содержание по разному представлено в разных языках.

В языках существуют различные способы передачи одного и того же значения. И эти значения обычно несовместимы между языками. Рассмотрите следующие примеры предложений, которые выражают одно и то же значение:

  • Мен (сууга) сүзгөндү жакшы көрөм.
    • Мен = subject, сүзгөндү = dir. object, жакшы.көрөм = verb
  • Маған (суда) жүзу ұнайды.
    • Маған = ind. object, жүзу = subject, ұнайды = verb.
  • Minä pidän uimisesta
    • Minä = subject, pidän = verb, uimisesta = adverbial

В системе Apertium, применяются правила, которые трансформируют структуру языка источника в структуру целевого языка, используя последовательность лексических форм в качестве промежуточной репрезентации. Более подробная информация в разделе 5: Основы структурного переноса.

Описание[edit]

Как отразить информация о процессе перевода на языке компьютера.

Последней проблемой является проблема описания. Чтобы создать систему машинного перевода, люди со знанием обоих языков должны систематизировать-кодировать свои знания в таком виде, чтобы компьютер смог их обработать.

Так как перевод часто является бессознательным процессом, мы переводим не задумываясь о правилах, которыми мы пользуемся. Компьютеры не имеют такой способности, им нужны конкретные инструкции что именно нужно делать. Перевод не получится, если в компьютер не будет занесена информация по переводу.

Но для многих предложений данная информация необязательна:

Например, на славянских языках:

  • Апертиум - система машинного перевода. (ru)
  • Apertium je sistem za mašinskoga prevođenja. (sh)
  • Apertium je sistem za računalniško prevajanje. (sl)

И на тюркских языках:

  • Apertium bir makine çevirisi sistemidir. (tr)
  • Апертиум - машиналык котормо системасы. (ky)
  • Апертиум - машиналық аудару системасы. (kk)
  • Апертиум - машина тәрҗемәләве системасы. (tt)
  • Апертиум - машина тәржемәләүе системаһы. (ba)

и на уральских языках:

  • Apertium on konekäännösjärjestelmä. (fi)

Практика[edit]

Установка[edit]

Для руководства по установке Apertium, HFST и грамматике ограничений, смотрите раздаточный материал.

Применение[edit]

Чтобы пользоваться системой Apertium, сначала откройте терминал. Теперь зайдите в раздел языковой пары (через cd), которую хотите протестировать.

$ cd apertium-aa-bb

Вы можете протестировать ее при помощи следующей команды:

$ echo "Текст, который вы хотите перевести." | apertium -d . aa-bb

Например, из турецкого в киргизский:

$ echo "En güzel kız evime geldi." | apertium -d . tr-ky
Эң жакшынакай кыз үйүмө келди. 

Структура раздела[edit]

Ниже приведена таблица, в которой дано описание основных файлов с данными, которые присутствуют в типичной языковой паре и ссылки на разделы в которых они описаны.

Файл Вид Описание Раздел(ы)
apertium-tt-ba.tt.lexc Словарь Словарь морфотактики татарского языка, для анализа и формирования 1 2
apertium-tt-ba.tt.twol Фонологические правила Морфонологические правила татарского языка 1 2
apertium-tt-ba.ba.lexc Словарь Словарь морфотактики башкирского языка, для анализа и формирования 1 2
apertium-tt-ba.ba.twol Фонологические правила Морфонологические правила башкирского языка 1 2
apertium-tt-ba.tt.rlx Правила по разрешению неоднозначности Грамматика ограничений татарского языка для снятия морфологической неоднозначности 3
apertium-tt-ba.ba.rlx Правила по разрешению неоднозначности Грамматика ограничений башкирского языка для снятия морфологической неоднозначности 3
apertium-tt-ba.tt-ba.dix Словарь Татарско—башкирский двуязычный словарь для лексического переноса 4
apertium-tt-ba.tt.lrx Правила лексической выборки Правила лексической выборки для татарского языка 4
apertium-tt-ba.ba.lrx Правила лексической выборки Правила лексической выборки для башкирского языка 4
apertium-tt-ba.tt-ba.t1x Правила переноса Татарско-башкирский файл с правилами первого уровня для структурного переноса 5 6
apertium-tt-ba.ba-tt.t1x Правила переноса Башкирско-татарский файл с правилами первого уровня для структурного переноса 5 6