Difference between revisions of "Курсы машинного перевода для языков России/Раздел 0"

From Apertium
Jump to navigation Jump to search
Line 1: Line 1:
 
<center><big>Раздел 0: Обзор</big></center>
 
<center><big>Раздел 0: Обзор</big></center>
 
{{TOCD}}
 
{{TOCD}}
В данном разделе будет дан краткий обзор такого метода как машинный перевод, основанный на использовании введенных правил и представлено как работает открытая платформа свободного машинного перевода Apertium
+
В данном разделе будет дан краткий обзор такого метода перевода как машинный перевод, основанного на использовании введенных правил и представлена работа открытой платформы свободного машинного перевода Apertium
   
 
Существуют два принципиально отличающихся друг от друга вида машинного перевода:
 
Существуют два принципиально отличающихся друг от друга вида машинного перевода:
   
* Машинный перевод, основанный на правилах (RBMT), его также называют символьным машинным переводом; Аппертиум как раз относится к данному виду и этот раздел посвящено подвиду машинного перевода, основанного на правилах
+
* Машинный перевод, основанный на правилах (Rule Based Machine Translation), его также называют символьным машинным переводом; Apertium как раз относится к данному виду и этот раздел посвящен подвиду машинного перевода, основанного на правилах
* Корпусный машинный перевод; при таком переводе для перевода новых предложений переводчик обращается к наборам из ранее переведенных предложений.
+
* Корпусный машинный перевод; при таком переводе для перевода новых предложений переводчик обращается к пулу из ранее переведенных предложений.
   
 
Если кратко представить корпусный МП, то его можно разделить на две главные подгруппы: подгруппа, в основе которой лежат статистические данные, и подгруппа, основанная на примерах. Теоретически, основной принцип работы статистического машинного перевода заключается в следующем: берется набор ранее переведенных предложений (параллельный корпус) и подсчитывается какие символы совпадают наиболее часто. Всем символам, которые совпадают, присваивается признак вероятности. При переводе нового предложения переводчик рассматривает все слова (символы), которым присвоен признак вероятности, их вероятности комбинируется, делается несколько вариантов возможных переводов и затем выбирается вариант перевода с самой высокой степенью вероятности. Первые системы статистического МП учитывали только совпадение слов, но более новые системы могут учитывать совпадения последовательных рядов слов (фраз) и иерархических деревьев.
 
Если кратко представить корпусный МП, то его можно разделить на две главные подгруппы: подгруппа, в основе которой лежат статистические данные, и подгруппа, основанная на примерах. Теоретически, основной принцип работы статистического машинного перевода заключается в следующем: берется набор ранее переведенных предложений (параллельный корпус) и подсчитывается какие символы совпадают наиболее часто. Всем символам, которые совпадают, присваивается признак вероятности. При переводе нового предложения переводчик рассматривает все слова (символы), которым присвоен признак вероятности, их вероятности комбинируется, делается несколько вариантов возможных переводов и затем выбирается вариант перевода с самой высокой степенью вероятности. Первые системы статистического МП учитывали только совпадение слов, но более новые системы могут учитывать совпадения последовательных рядов слов (фраз) и иерархических деревьев.
   
В противовес этому, машинный перевод, основанный на анализе примеров может быть назван переводом по аналогии. В нем также используется параллельные корпуса, но, вместо того чтобы обращаться к признакам вероятности слов, переводчик учится делать анализ на основе примеров. Например, если будет дана пара предложений (A la chica le gustan los gatos(es) → Das Mädchen mag Katzen(de) и A la chica le gustan los elefantes → Das Mädchen mag Elefanten) переводчик может дать следующий пример перевода (A la chica le gustan X → Das Mädchen mag X). При переводе нового предложения, переводчик обращается и анализирует данные части предложения и заменяет их.
+
В противовес этому, машинный перевод, основанный на анализе примеров, может быть назван переводом по аналогии. В нем также используется параллельные корпуса, но, вместо того чтобы обращаться к признакам вероятности слов, переводчик учится делать анализ на основе примеров. Например, если будет дана пара предложений (A la chica le gustan los gatos(es) → Das Mädchen mag Katzen(de) и A la chica le gustan los elefantes → Das Mädchen mag Elefanten) переводчик может дать следующий пример перевода (A la chica le gustan X → Das Mädchen mag X). При переводе нового предложения, переводчик обращается и анализирует данные части предложения и заменяет их.
   
Автоматическое применение большего пула переводных текстов (переводной памяти) к тексту может быть также названо видом машинного перевода с использованием корпуса. На самом деле, границы между статистическим машинным переводом и переводом, которые использует и анализирует примеры достаточно размыты. И в том и в другом методе есть свои недостатки и преимущества. При использовании методов машинного перевода с использованием корпуса, переводной текст обычно выглядит более естественным, но может стардать сам смысл перевода, при использовании систем, которые используют метод, основанный на применении правил, перевод выглядит не таким гладким, но значение переводного текста ближе к языку оригинала.
+
Автоматическое применение большего пула переводных текстов (переводной памяти) к переводному тексту может быть также названо видом машинного перевода с использованием корпуса. На самом деле, границы между статистическим машинным переводом и переводом, которые использует и анализирует примеры достаточно размыты. И в том и в другом методе есть свои недостатки и преимущества. При использовании методов машинного перевода с использованием корпуса, переводной текст обычно выглядит более естественным, но может страдать сам смысл перевода, при использовании систем, которые используют метод, основанный на применении правил, перевод выглядит не таким гладким, но более точно передавать смысл с языка оригинала.
   
Системы, основанные на правила, и системы, в которых используются корпус, могут быть объединены различными способами и представлять собой смешанную систему. Например, можно создать смешанную систему, где машинный перевод с использованием корпуса помогает найти эквиваленты, а затем может быть применен метод, основанные на правилах, в случае, если не найдено ни одного совпадающего образца.
+
Системы, основанные на правила, и системы, в которых используются корпус, могут быть объединены различными способами и представлять собой смешанную систему. Например, можно создать смешанную систему, где корпусный машинный перевод помогает найти эквиваленты, а затем применяется метод, основанный на правилах, в случае, если не найдено ни одного совпадающего образца.
   
 
==Виды систем машинного перевода==
 
==Виды систем машинного перевода==
   
 
===Прямой===
 
===Прямой===
Прямой, или пословный машинный перевод осуществляется следующим образом: из языка источника считывается по одному слову за один раз, затем слово ищется в двуязычном списке слов of surface forms. Слова могут быть удалены или не учтены, и, могут быть переведены одним или несколькими словами. Грамматический анализ не проводится, так что даже такие простые ошибки, как соглашение в роде и числе между существительным и определением к нему останется в языке перевода на выходе.
+
Прямой, или пословный машинный перевод осуществляется следующим образом: из языка источника считывается по одному слову за один раз, затем слово ищется в двуязычном списке слов произвольной формы. Слова могут быть удалены или не учтены, и, могут быть переведены одним или несколькими словами. Грамматический анализ не проводится, так что даже такие простые ошибки, как соглашение в роде и числе между существительным и определением к нему останется в языке перевода на выходе.
   
 
:ПРИМЕР 1
 
:ПРИМЕР 1
Line 29: Line 29:
 
:Генрих даёт кусок мяса своей собаке.
 
:Генрих даёт кусок мяса своей собаке.
   
===Передача===
+
===Перенос===
   
 
Машинный перевод, основанный на переносе, работает таким образом, что, сначала язык-источник преобразовывается в зависимую от языка промежуточную репрезентацию, а затем правила применяются уже к этой промежуточной репрезентации с целью преобразования структуры языка-источника в структуру языка перевода. Перевод осуществляется с этой репрезентации с использованием как двуязычных словарей, так и грамматических правил.
Transfer-based machine translation works by first converting the source language to a language-dependent intermediate representation, and then rules are applied to this intermediate representation in order to change the structure of the source language to the structure of the target language. The translation is generated from this representation using both bilingual dictionaries and grammatical rules.
 
Машинный перевод, основанный на передаче, работает таким образом, что, сначала язык-источник преобразовывается в промежуточное представление, а затем правила применяются уже к этому промежуточному представлению с целью преобразования структуры языка-источника в структуру языка перевода. Перевод осуществляется из этого представления с использованием как двуязычных словарей, так и грамматических правил.
 
   
   
 
There can be differences in the level of abstraction of the intermediate representation. We can distinguish two broad groups, shallow transfer, and deep transfer. In shallow-transfer MT the intermediate representation is usually either based on morphology or shallow syntax. In deep-transfer MT the intermediate representation usually includes some kind of parse tree or graph structure (see images on the right).
 
There can be differences in the level of abstraction of the intermediate representation. We can distinguish two broad groups, shallow transfer, and deep transfer. In shallow-transfer MT the intermediate representation is usually either based on morphology or shallow syntax. In deep-transfer MT the intermediate representation usually includes some kind of parse tree or graph structure (see images on the right).
Могут быть различия в уровне абстракции промежуточного представления. Можно выделить две большие группы: неглубокая передача и глубокая передача. При неглубоком transfer машинном переводе промежуточное представление, как правило, основывается или на морфологии или на поверхностном синтаксисе. При глубокой передачи MT промежуточное представление обычно включает в себя что-то похожее на дерево разбора или графическую структуру (см. изображение справа)
+
Различия могут быть в уровне абстракции этой промежуточной репрезентации. Можно выделить две большие группы: неглубокая передача и глубокая передача. При неглубоком переносе машинного перевода промежуточная репрезентация, как правило, основывается или на морфологии или на поверхностном синтаксисе. При глубокой передачи MT промежуточная репрезентация обычно включает в себя что-то похожее на дерево разбора или графическую структуру (см. изображение справа)
   
 
:ПРИМЕР 2
 
:ПРИМЕР 2
   
 
Машинный перевод, основанный на переносе обычно работает следующим образом: сначала текст перевода анализируется и снимается морфологическая неоднозначность (а в случае глубокой передачи, синтаксическая) с целью получения промежуточной репрезентации исходного языка. Процесс переноса затем преобразует эту финальную репрезентацию (все еще на языке оригинала) в репрезентацию на том же уровне абстракции в языке перевода. Из репрезентации языка перевода, генерируется язык перевода.
Transfer-based MT usually works as follows: The original text is first analysed and disambiguated morphologically (and in the case of deep transfer, syntactically) in order to obtain the source language intermediate representation. The transfer process then converts this final representation (still in the source language) to a representation of the same level of abstraction in the target la
 
Машинный перевод, основанный на transfer обычно работает следующим образом: сначала оригинальный текст анализируется и снимается морфологическая disambiguated (а в случае глубокой передачи, синтаксическая) с целью получения исходного языка промежуточное представление.Процесс передачи затем преобразует это окончательное представление (до сих пор на языке оригинала) для представления на том же уровне абстракции в целевом языке. Из представления целевой язык, язык не генерируется.
 
nguage. From the target language representation, the target language is generated.
 
   
   
Line 48: Line 45:
   
 
In transfer-based machine translation, rules are written on a pair-by-pair basis, making them specific to a language pair. In the interlingua approach, the intermediate representation is entirely language independent. There are a number of benefits to this approach, but also disadvantages. The benefits are that in order to add a new language to an existing MT system, it is only necessary to write an analyser and generator for the new language, and not transfer rules between the new language and all the existing languages. The drawbacks are that it is very hard to define an interlingua which can truely represent all nuances of all natural languages, and in practice, interlingua systems are only used for limited translation domains.
 
In transfer-based machine translation, rules are written on a pair-by-pair basis, making them specific to a language pair. In the interlingua approach, the intermediate representation is entirely language independent. There are a number of benefits to this approach, but also disadvantages. The benefits are that in order to add a new language to an existing MT system, it is only necessary to write an analyser and generator for the new language, and not transfer rules between the new language and all the existing languages. The drawbacks are that it is very hard to define an interlingua which can truely represent all nuances of all natural languages, and in practice, interlingua systems are only used for limited translation domains.
  +
В машинном переводе, основанного на переносе, правила написаны на основе пара-на-пару, что делает их специфичны для языковой пары. В подходе посредник, промежуточное представление полностью независимым от языка. Есть ряд преимуществ такого подхода, но также и недостатки.Выгоды, что для того, чтобы добавить новый язык в существующие системы MT, необходимо лишь написать анализатор и генератор для нового языка, а не правила переноса между новым языком и всех существующих языков.Недостатки, что это очень трудно определить язык-посредник, который может действительно представлять все нюансы всех естественных языках, и на практике, посредник системы используются только для ограниченной области перевода.
   
 
==Проблемы машинного перевода==
 
==Проблемы машинного перевода==

Revision as of 20:34, 16 January 2012

Раздел 0: Обзор

В данном разделе будет дан краткий обзор такого метода перевода как машинный перевод, основанного на использовании введенных правил и представлена работа открытой платформы свободного машинного перевода Apertium

Существуют два принципиально отличающихся друг от друга вида машинного перевода:

  • Машинный перевод, основанный на правилах (Rule Based Machine Translation), его также называют символьным машинным переводом; Apertium как раз относится к данному виду и этот раздел посвящен подвиду машинного перевода, основанного на правилах
  • Корпусный машинный перевод; при таком переводе для перевода новых предложений переводчик обращается к пулу из ранее переведенных предложений.

Если кратко представить корпусный МП, то его можно разделить на две главные подгруппы: подгруппа, в основе которой лежат статистические данные, и подгруппа, основанная на примерах. Теоретически, основной принцип работы статистического машинного перевода заключается в следующем: берется набор ранее переведенных предложений (параллельный корпус) и подсчитывается какие символы совпадают наиболее часто. Всем символам, которые совпадают, присваивается признак вероятности. При переводе нового предложения переводчик рассматривает все слова (символы), которым присвоен признак вероятности, их вероятности комбинируется, делается несколько вариантов возможных переводов и затем выбирается вариант перевода с самой высокой степенью вероятности. Первые системы статистического МП учитывали только совпадение слов, но более новые системы могут учитывать совпадения последовательных рядов слов (фраз) и иерархических деревьев.

В противовес этому, машинный перевод, основанный на анализе примеров, может быть назван переводом по аналогии. В нем также используется параллельные корпуса, но, вместо того чтобы обращаться к признакам вероятности слов, переводчик учится делать анализ на основе примеров. Например, если будет дана пара предложений (A la chica le gustan los gatos(es) → Das Mädchen mag Katzen(de) и A la chica le gustan los elefantes → Das Mädchen mag Elefanten) переводчик может дать следующий пример перевода (A la chica le gustan X → Das Mädchen mag X). При переводе нового предложения, переводчик обращается и анализирует данные части предложения и заменяет их.

Автоматическое применение большего пула переводных текстов (переводной памяти) к переводному тексту может быть также названо видом машинного перевода с использованием корпуса. На самом деле, границы между статистическим машинным переводом и переводом, которые использует и анализирует примеры достаточно размыты. И в том и в другом методе есть свои недостатки и преимущества. При использовании методов машинного перевода с использованием корпуса, переводной текст обычно выглядит более естественным, но может страдать сам смысл перевода, при использовании систем, которые используют метод, основанный на применении правил, перевод выглядит не таким гладким, но более точно передавать смысл с языка оригинала.

Системы, основанные на правила, и системы, в которых используются корпус, могут быть объединены различными способами и представлять собой смешанную систему. Например, можно создать смешанную систему, где корпусный машинный перевод помогает найти эквиваленты, а затем применяется метод, основанный на правилах, в случае, если не найдено ни одного совпадающего образца.

Виды систем машинного перевода

Прямой

Прямой, или пословный машинный перевод осуществляется следующим образом: из языка источника считывается по одному слову за один раз, затем слово ищется в двуязычном списке слов произвольной формы. Слова могут быть удалены или не учтены, и, могут быть переведены одним или несколькими словами. Грамматический анализ не проводится, так что даже такие простые ошибки, как соглашение в роде и числе между существительным и определением к нему останется в языке перевода на выходе.

ПРИМЕР 1
Heinrich köpeğine bir parça et verir.
<< TXUVAIX AQUÍ >>
Генрих сетö яй кусöк аслас понлы.
Heinrich antoi lihapalan koiralleen.
Генрих даёт кусок мяса своей собаке.

Перенос

Машинный перевод, основанный на переносе, работает таким образом, что, сначала язык-источник преобразовывается в зависимую от языка промежуточную репрезентацию, а затем правила применяются уже к этой промежуточной репрезентации с целью преобразования структуры языка-источника в структуру языка перевода. Перевод осуществляется с этой репрезентации с использованием как двуязычных словарей, так и грамматических правил.


There can be differences in the level of abstraction of the intermediate representation. We can distinguish two broad groups, shallow transfer, and deep transfer. In shallow-transfer MT the intermediate representation is usually either based on morphology or shallow syntax. In deep-transfer MT the intermediate representation usually includes some kind of parse tree or graph structure (see images on the right). Различия могут быть в уровне абстракции этой промежуточной репрезентации. Можно выделить две большие группы: неглубокая передача и глубокая передача. При неглубоком переносе машинного перевода промежуточная репрезентация, как правило, основывается или на морфологии или на поверхностном синтаксисе. При глубокой передачи MT промежуточная репрезентация обычно включает в себя что-то похожее на дерево разбора или графическую структуру (см. изображение справа)

ПРИМЕР 2

Машинный перевод, основанный на переносе обычно работает следующим образом: сначала текст перевода анализируется и снимается морфологическая неоднозначность (а в случае глубокой передачи, синтаксическая) с целью получения промежуточной репрезентации исходного языка. Процесс переноса затем преобразует эту финальную репрезентацию (все еще на языке оригинала) в репрезентацию на том же уровне абстракции в языке перевода. Из репрезентации языка перевода, генерируется язык перевода.


Межязыковой

In transfer-based machine translation, rules are written on a pair-by-pair basis, making them specific to a language pair. In the interlingua approach, the intermediate representation is entirely language independent. There are a number of benefits to this approach, but also disadvantages. The benefits are that in order to add a new language to an existing MT system, it is only necessary to write an analyser and generator for the new language, and not transfer rules between the new language and all the existing languages. The drawbacks are that it is very hard to define an interlingua which can truely represent all nuances of all natural languages, and in practice, interlingua systems are only used for limited translation domains. В машинном переводе, основанного на переносе, правила написаны на основе пара-на-пару, что делает их специфичны для языковой пары. В подходе посредник, промежуточное представление полностью независимым от языка. Есть ряд преимуществ такого подхода, но также и недостатки.Выгоды, что для того, чтобы добавить новый язык в существующие системы MT, необходимо лишь написать анализатор и генератор для нового языка, а не правила переноса между новым языком и всех существующих языков.Недостатки, что это очень трудно определить язык-посредник, который может действительно представлять все нюансы всех естественных языках, и на практике, посредник системы используются только для ограниченной области перевода.

Проблемы машинного перевода

Анализ

Form does not entirely determine content.

Это также называется проблемой омонимии. Проблема состоит в том, что многие предложения на одном языке могут иметь более чем одну интерпретацию и эти интерпретации могут быть переведены по разному на разные языки. Рассмотрите следующий пример:

ПРИМЕР 3
Здесь нужен пример синтаксической неоднозначности на русском или на чувашском языке (чем проще, тем лучше)
Вот друг Саша, которого я вчера встретил.

Synthesis

Content does not entirely determine form.

This is the problem that in a given language there is usually more than one way to communicate the same meaning for any given meaning.

EXEMPLE 4
Эсир мӗнле пурӑнатӑр?
Мӗнле пурнӑҫсем?
Мӗнле халсем?
Мӗнле еҫсем?

All of these questions demand the same answer (how are you), but they may be more or less frequently used, or emphasise different things. In Apertium, for a given input sentence, one output sentence is produced. It is up to the designer of the translation system to choose which translation they want the system to produce. Often we recommend the most literal translation possible, as this reduces the necessity of transfer rules.

Transfer

The same content is represented differently in different languages.

В языках существуют различные способы передачи одного и того же значения. И эти значения обычно несовместимы между языками. Рассмотрите следующие примеры предложений, которые выражают одно и то же значение:

ПРИМЕР 5

В системе Apertium, применяются правила, которые трансформируют структуру языка источника в структуру целевого языка, используя последовательность лексических форм в качестве intermediate representation. Более подробная информация в разделе 5: Structural transfer basics.

Описание

Representing knowledge about the translation process in machine-readable form.

Последней проблемой является проблема описания. Чтобы создать систему машинного перевода люди со знанием обоих языков должны сесть и систематизировать-кодировать свои знания в таком виде, чтобы компьютер смог их обработать.

While translation is often an unconscious process, we translate without reflecting on the rules that we use to translate, the machine does not have this unconsciousness, and must be told exactly what operations to perform. If these operations rely on information that the machine does not have, or cannot have, then a machine translation will not be possible. Так как перевод часто является бессознательным процессом, мы переводим не задумываясь о правилах, которыми мы пользуемся. Компьютеры не имеют такой способности, им нужны конкретные инструкции что именно нужно делать. Перевод не получится, если в компьютер не будет занесена информация по переводу.

Но для многих предложений данная информация необязательна:

ПРИМЕР 6

Практика

Установка

Для руководства по установке Apertium, HFST и Constraint grammar, смотрите раздаточный материал.

Применение

Чтобы пользоваться системой Apertium, сначала откройте first open up a terminal. Now cd into the directory of the language pair you want to test.

$ cd apertium-aa-bb

Вы можете протестировать это при помощи следующей команды:

$ echo "Text that you want to translate" | apertium -d . aa-bb

Например, из турецкого в киргизский:

$ echo "En güzel kız evime geldi." | apertium -d . tr-ky
Эң жакшынакай кыз үйүмө келди. 

Directory layout

Ниже приведена таблица, в которой дано описание основных файлов с данными, которые присутствуют в типичной языковой паре и ссылки на разделы в которых они описаны. Below is a table which gives a description of the main data files that can be found in a typical language pair, and links to the sessions where they are described.

File Type Description Session(s)
apertium-tr-ky.ky.lexc Dictionary Kyrgyz morphotactic dictionary, used for analysis and generation 1 2
apertium-tr-ky.ky.twol Phonological rules Kyrgyz morphophonological rules 1 2
apertium-tr-ky.tr.lexc Dictionary Turkish morphotactic dictionary, used for analysis and generation 1 2
apertium-tr-ky.tr.twol Phonological rules Turkish morphophonological rules 1 2
apertium-tr-ky.tr-ky.dix Dictionary Turkish—Kyrgyz bilingual dictionary, used for lexical transfer 4
apertium-tr-ky.tr.rlx Tagging rules Turkish constraint grammar, used for morphological disambiguation 3
apertium-tr-ky.ky.rlx Tagging rules Kyrgyz constraint grammar, used for morphological disambiguation 3
apertium-tr-ky.tr-ky.t1x Transfer rules Turkish→Kyrgyz first-level rule file, for structural transfer 5 6
apertium-tr-ky.ky-tr.t1x Transfer rules Kyrgyz→Turkish first-level rule file, for structural transfer 5 6