Руководство по созданию новой языковой пары

From Apertium
Revision as of 20:39, 23 November 2010 by 188.73.176.81 (talk)
Jump to navigation Jump to search

В этом руководстве описывается порядок создания новой языковой пары для системы машинного перевода Apertium. От вас не требуются какие-либо лингвистические знания или знания по машинному переводу, кроме как способности различать части речи (отличать существительные от глаголов, например).

Введение

Как вы только что узнали, Apertium является системой машинного перевода. Но если быть более точным, то Apertium следует назвать не системой, а платформой машинного перевода. Он обеспечивает вас "движком" машинного перевода (англ. "engine". Можно также перевести как "ядро", "механизм" и т.п.) и набором инструментов, с помощью которых вы можете строить свои собственные системы машинного перевода. Единственное, что вы должны сделать, это написать данные. На базовом уровне эти данные состоят из трёх словарей и некоторого набора правил (обеспечивающих перестановку слов и другие грамматические трансформации).

За более подробной информацией, как всё это работает, обращайтесь к веб-сайту проекта apertium.sourceforge.net.

Что вам потребуется

  • lttoolbox (>= 3.0.0)
  • libxml utils (xmllint и др.)
  • apertium (>= 3.0.0)
  • текстовый редактор (или специализированный XML-редактор, если таковой вам больше по душе)

Это руководство не описывает порядок установки этих пакетов, за подробной информацией обращайтесь к разделу документации веб-сайта Apertium.

Из чего состоит языковая пара?

Apertium представляет собой систему машинного перевода поверхностно-трансферного типа. Следовательно, в основном он имеет дело со словарями и правилами поверхностного трансфера. На практике поверхностный трансфер отличается от глубокого тем, что при нём не выполняется полный синтаксический разбор предложений, а правила, в отличии от операций на дереве синтаксического разбора, представляют собой операции с группами лексических единиц. Этих словарей три:

  1. Морфологический словарь для языка xx: он содержит информацию о словоизменении (склонении или спряжении) на языке xx. В нашем примере этот словарь будет называться так: apertium-sh-en.sh.dix
  2. Морфологический словарь для языка yy: он, в свою очередь, содержит информацию о словоизменении (склонении или спряжении) на языке yy. В нашем примере он имеет следующее название: apertium-sh-en.en.dix
  3. Двуязычный словарь: содержит переводные соответствия слов и символов двух языков. Он будет называться так: apertium-sh-en.sh-en.dix

В языковой паре любой из языков, составляющих эту пару, может быть как входным, так и выходным языком, т.е. эти термины употребляются условно.

Составляющими языковую пару являются также два файла с правилами трансфера. Это правила, которые управляют перестановкой слов в предложениях, например chat noir -> cat black -> black cat. Также эти правила обеспечивают в предложении согласование рода, числа и т.д. Они же могут использоваться и для вставки или удаления лексических единиц, как это будет описано ниже. Это следующие файлы:

  • правила трансфера языка xx на язык yy: эти правила описывают, каким изменениям подвергнутся предложения языка xx при переводе на язык yy. В нашем примере это следующий файл: apertium-sh-en.sh-en.t1x
  • правила трансфера языка yy на язык xx: этот файл содержит правила, описывающие преобразования, которые должны быть осуществлены при переводе с языка yy на язык xx. В нашем примере этот файл будет называться так: apertium-sh-en.en-sh.t1x

Многие из существующих языковых пар содержат и другие файлы, но мы не будем рассматривать их в данном руководстве. Эти файлы требуются для создания функциональной системы.

Языковая пара

Как уже можно было догадаться по названиям файлов, для описания порядка создания базовой системы в этом руководстве будут использоваться примеры перевода с сербохорватского на английский язык. Заметим, что это не идеальная пара, так как система работает лучше с родственными языками. Однако в случае простых примеров, приводимых здесь, мы не столкнёмся с какими-либо проблемами.

Краткое замечание о терминах

Перед тем как продолжить, следует пояснить значение некоторых терминов.

Первым из них является лемма. Лемма — это каноническая форма слова, слово без грамматической информации. Например, леммой слова cats является cat. В английском языке лемма рассматриваемого существительного как правило совпадает с его формой единственного числа. В русском и татарском языках лемма существительного имеет вид его формы именительного падежа единственного числа. Для глаголов в английском языке лемма будет иметь вид инфинитива без to (или просто инфинитива в русском и татарском языках). Например, леммой слова was будет be, также как леммой слова был будет быть, или леммой слова булды будет булырга.

Вторым термином является термин символ. В контексте Apertium`а символ означает грамматический знак. Слово cats есть существительное множественного числа, следовательно, он будет иметь символ существительного и символ множественного числа. На входе и выходе модулей Apertium`а эти символы обычно заключаются в угловые скобки, как показано ниже:

  • <n>; для существительного
  • <pl>; для множественного числа

Другими примерами символов являются <sg> (единственное число), <p1> (первое лицо), <pri> (настоящее время изъявительное наклонение) и др. Стоит заметить, что во многих из существующих языковых пар символы имеют вид акронимов или сокращений каталанских слов. Например, vbhaver — от vb (verb, глагол) и haver ("иметь" на каталанском). Символы определяются в тегах <sdef> и используются в тегах <s>.

Третьим же термином является парадигма. В контексте системы Apertium парадигма является примером склонения/спряжения определённой группы слов. В морфологическом словаре леммы (см. выше) ссылаются на парадигмы, что позволяет нам показать все словоформы этих лемм без необходимости записи всех возможных окончаний.

Примером использования парадигмы может служить следующее. Допустим, мы хотим добавить в словарь прилагательные happy и lazy. Вместо записи одинаковых окончаний:

  • happy, happ (y, ier, iest)
  • lazy, laz (y, ier, iest)

мы можем записать окончания форм слова happy, а потом сказать "lazy изменяется как happy", или "shy изменяется как happy", "naughty изменяется как happy", "friendly изменяется как happy" и т.д. В этом примере happy и будет парадигмой, моделью изменения всех остальных. Точное описание определения парадигм будет дано позже. Парадигмы определяются в тегах <pardef> и используются в тегах <par>.

Начало работы

Одноязычные словари

See also: List of dictionaries and Incubator

Начнём с создания нашего первого словаря входного языка. Словарь является XML-файлом. Откройте ваш текстовый редактор и наберите следующее:

<?xml version="1.0" encoding="UTF-8"?>
<dictionary>

</dictionary>

Так, теперь файл определяет, что мы хотим начать создание словаря. Что бы этот файл был более полезным, мы должны добавить в него ещё несколько записей, первой из которых будет алфавит. Он определяет набор букв, которые могут использоваться в словаре для сербохорватского языка. Он выглядит как показано ниже и содержит все буквы сербохорватского алфавита:

<alphabet>ABCČĆDDžĐEFGHIJKLLjMNNjOPRSŠTUVZŽabcčćddžđefghijklljmnnjoprsštuvzž</alphabet>

Добавьте алфавит после тега <dictionary>.

Далее нам необходимо определить некоторые символы. Начнём с более простых — существительное (n) в единственном (sg) и множественном (pl) числах.

<sdefs>
   <sdef n="n"/>
   <sdef n="sg"/>
   <sdef n="pl"/>
</sdefs>

Имена символов не обязательно должны быть такими краткими, их можно даже писать полностью, но так как делать это придётся много раз, есть смысл в сокращении.

К сожалению, всё не так просто — существительные в сербохорватском языке имеют не только категорию числа, но и категории рода и падежа. Однако для нашего примера мы будем предполагать, что существительное является существительным мужского рода и что он в именительном падеже (пример можно найти в конце этого документа).

Следующим шагом определим раздел для парадигм,

<pardefs>

</pardefs>

и раздел для словаря:

<section id="main" type="standard">

</section>

Есть два вида разделов: первый — стандартный раздел. Он содержит слова, энклитики и т.д. Второй — безусловный раздел, содержащий знаки препинания и т.п. В нашем примере нет безусловного раздела, хотя он будет показан позднее.

Таким образом, наш файл будет выглядеть так:

<?xml version="1.0" encoding="UTF-8"?>
<dictionary>
   <sdefs>
     <sdef n="n"/>
     <sdef n="sg"/>
     <sdef n="pl"/>
   </sdefs>
   <pardefs>

   </pardefs>
   <section id="main" type="standard">

   </section>
</dictionary>

Теперь у нас есть скелет словаря, и мы можем начать с добавлением существительного. Им будет слово 'gramofon'.

Так как ранее определённых парадигм у нас нет, первым делом мы должны определить парадигму.

Напомним, что мы имеем ввиду мужской род и именительный падеж. Формой единственного числа является 'gramofon', формой множественного числа — 'gramofoni'. Таким образом:

<pardef n="gramofon__n">
   <e>
     <p>
       <l/>
       <r><s n="n"/><s n="sg"/></r>
     </p>
   </e>
   <e>
     <p>
       <l>i</l>
       <r><s n="n"/><s n="pl"/></r>
     </p>
   </e>
</pardef>

Заметьте: '<l/>' (который эквивалентен <l></l>) означает, что в единственном числе к основе ничего не присоединяется.

Всё это может показаться довольно многословным способом описания, но для такого описания есть причины и к нему быстро привыкаешь. Вы, наверное, уже задаётесь вопросом, что означают все эти <e>, <l> и <r>?

  • e означает запись (entry). Образно это можно также назвать словарной статьёй.
  • p означает пару (pair).
  • l означает влево (left).
  • r означает вправо (right).

Почему влево и вправо? Морфологические словари позднее будут скомпилированы в конечные автоматы. Их компиляция слева направо создаёт анализы слов, а справа налево — слова из анализов. Например:

* gramofoni (слева направо) gramofon<n><pl> (анализ)
* gramofon<n><pl> (справа налево) gramofoni (генерирование)

Мы определили парадигму, теперь требуется соотнести её с леммой — gramofon. Это действие выполняется в ранее определённом разделе (section).

Записью, которую нужно добавить в </dictionary>

Теперь мы должны добавить запись (в <section>) для осуществления перевода двух слов:

<e><p><l>gramofon<s n="n"/></l><r>gramophone<s n="n"/></r></p></e>

Так как в словаре таких записей очень много, для удобочитаемости их обычно пишут в одну строку. Снова вопросы о 'l' и 'r', да? Всё довольно просто — мы компилируем слева направо для создания сербохорватско → английского словаря, и справа налево для создания английско → сербохорватского словаря.

Когда всё это сделано, выполните следующие команды:

$ lt-comp lr apertium-sh-en.sh.dix sh-en.automorf.bin
$ lt-comp rl apertium-sh-en.en.dix sh-en.autogen.bin

$ lt-comp lr apertium-sh-en.en.dix en-sh.automorf.bin
$ lt-comp rl apertium-sh-en.sh.dix en-sh.autogen.bin

$ lt-comp lr apertium-sh-en.sh-en.dix sh-en.autobil.bin
$ lt-comp rl apertium-sh-en.sh-en.dix en-sh.autobil.bin

для создания морфологических анализаторов (automorf), морфологических генераторов (autogen) и поисковиков слов (autobil), слово "bil" означает "bilingual", т.е. "двуязычный".

Правила трансфера

Теперь мы имеем два морфологических словаря и один двуязычный словарь. Всё что нам ещё нужно сделать это правила трансфера для существительных. Файлы с правилами трансфера имеют свой собственный DTD (transfer.dtd), который может быть найден в пакете Apertium. Если вам нужно написать правило трансфера, то часто имеет смысл сначала обратиться к файлам с правилами для других языковых пар, так как многие правила могут быть использованы для разных языковых пар. Или же эти правила можно использовать в модифицированном виде. Например, правило, приведённое ниже, может быть использовано для всех нуль-субъектных языков.

"Скелет" файла такой же:

<?xml version="1.0" encoding="UTF-8"?>
<transfer>

</transfer>

Так как мы не учитываем падежи (т.е. возможное изменение падежей при переводе), нам необходимо создать правило, которое просто "брало" бы грамматические символы на входе и, в свою очередь, выдавало их.

Сначала нам следует определить категории и атрибуты. Категории и атрибуты позволяют объединять грамматические символы. С помощью категорий мы можем объединять символы для их "сведения воедино" (например, категория 'n.*' объединяет все существительные). Атрибуты позволяют нам объединять символы, из которых мы далее можем выбрать нужный нам (например, 'sg' и 'pl' могут быть объединены атрибутом 'number').

Добавим необходимые разделы:

<section-def-cats>

</section-def-cats>
<section-def-attrs>

</section-def-attrs>

Существительные в нашем примере изменяются только по числам (что мы уже много раз повторяли), следовательно, необходимо добавить категорию для существительных и атрибут числа. Достаточно следующих записей:

В раздел section-def-cats добавьте:

<def-cat n="nom">
   <cat-item tags="n.*"/>
</def-cat>

Категория "покрывает" все существительные (леммы, за которыми следует <n> и за ним ещё что-нибудь) и ссылается на них как "nom" (вы увидите далее, как это применяется).

В раздел section-def-attrs добавьте:

<def-attr n="nbr">
   <attr-item tags="sg"/>
   <attr-item tags="pl"/>
</def-attr>

а также

<def-attr n="a_nom">
   <attr-item tags="n"/>
</def-attr>

Первая запись определяет атрибут nbr (number=число), которое может быть либо единственным (sg), либо множественным (pl).

Вторая запись определяет атрибут a_nom (атрибут существительное).

Далее нам необходимо добавить раздел для глобальных переменных:

<section-def-vars>

</section-def-vars>

Эти переменные используются для сохранения атрибутов или их передачи между несколькими правилами. Пока нам нужна только одна,

<def-var n="number"/>

И наконец, необходимо добавить само правило, которое позволяло бы принимать существительное и затем выводить его в правильной форме. Нам нужен раздел для правил...

<section-rules>

</section-rules>

На этот раз я сначала покажу правило, и только затем дам к нему пояснения.

<rule>
   <pattern>
     <pattern-item n="nom"/>
   </pattern>
   <action>
     <out>
       <lu>
         <clip pos="1" side="tl" part="lem"/>
         <clip pos="1" side="tl" part="a_nom"/>
         <clip pos="1" side="tl" part="nbr"/>
       </lu>
     </out>
   </action>
</rule>

Первый тег понятен — он определяет правило. Второй тег, pattern, (означает следюущее: "применять это правило, если обнаружен этот шаблон". В этом примере шаблон состоит из одного существительного (определённого категорией nom). Заметьте, что шаблоны накладываются в режиме "длиннейший совпадающий". Так, если у вас есть три правила, первый из которых относится к соединениям слов, соответствующих шаблону "<prn><vblex><n>", второй — шаблону "<prn><vblex>" и третий — шаблону "<n>", накладываемым шаблоном и применяемым (в случае соответствия соединения слов этому шаблону) правилом будет первый.

Каждому шаблону соответствует определённое действие, которое генерирует соответствующие выводные данные. Выводными данными (выводом) является лексическая единица (lu, lexical unit).

Тег clip позволяет пользователю выбирать атрибуты или части лексической единицы входного (side="sl") или выходного (side="tl") языка и манипулировать ими.

Скомпилируем и проверим файл. Правила трансфера компилируются так:

$ apertium-preprocess-transfer apertium-sh-en.sh-en.t1x sh-en.t1x.bin

что создаст файл sh-en.t1x.bin.

Теперь всё готово для проверки нашей системы машинного перевода. У нас ещё нет одного важного компонента, а именно разметчика по частям речи или частеречного теггера (PoS tagger, part-of-speech tagger), однако вскоре этот вопрос будет пояснён. Пока мы можем проверить систему и без него.

Сначала проанализируем слово "gramofoni":

$ echo "gramofoni" | lt-proc sh-en.automorf.bin 
^gramofon/gramofon<n><pl>$

После этого теггер по частям речи должен выбрать правильный вариант (правильную часть речи), но так как теггера пока у нас нет, мы можем использовать маленький gawk-скрипт (спасибо Sergio), который будет выдавать первый из полученных результатов (на самом деле и результат-то у нас будет всего один).

$ echo "gramofoni" | lt-proc sh-en.automorf.bin | \
  gawk 'BEGIN{RS="$"; FS="/";}{nf=split($1,COMPONENTS,"^"); for(i = 1; i<nf; i++) printf COMPONENTS[i]; if($2 != "") printf("^%s$",$2);}' | \
^gramofon<n><pl>$

Теперь обработаем результат с помощью правила трансфера:

$ echo "gramofoni" | lt-proc sh-en.automorf.bin | \
  gawk 'BEGIN{RS="$"; FS="/";}{nf=split($1,COMPONENTS,"^"); for(i = 1; i<nf; i++) printf COMPONENTS[i]; if($2 != "") printf("^%s$",$2);}' | \
  apertium-transfer apertium-sh-en.sh-en.t1x sh-en.t1x.bin sh-en.autobil.bin

Что выдаст следующее:

^gramophone<n><pl>$^@
  • 'gramophone' есть лемма (lem) выходного языка (side="tl") в позиции 1 (pos="1").
  • '<n>' есть a_nom (существительное) выходного языка в позции 1.
  • '<pl>' есть атрибут числа (nbr) выходного языка в позиции 1.

Попробуйте закомментировать одну из этих clip-строк, перекомпилировать файл и посмотреть, что произойдёт.

Теперь у нас есть вывод трансфера, и единственное, что остаётся сделать, это сгенерировать словоформы (т.е. должным образом склонённые или спряжённые формы) на выходном языке. Для этого используется тот же самый lt-proc, но в другом режиме — в режиме генерирования.

$ echo "gramofoni" | lt-proc sh-en.automorf.bin | \
  gawk 'BEGIN{RS="$"; FS="/";}{nf=split($1,COMPONENTS,"^"); for(i = 1; i<nf; i++) printf COMPONENTS[i]; if($2 != "") printf("^%s$",$2);}' | \
  apertium-transfer apertium-sh-en.sh-en.t1x sh-en.t1x.bin sh-en.autobil.bin | \
  lt-proc -g sh-en.autogen.bin

gramophones\@

Вуаля. Теперь у вас есть система машинного перевода, которая переводит сербохорватское существительное на английский язык. Очевидно, что пользы от такой системы не так много, однако вскоре мы перейдём к более сложному материалу. Ах да, о символе '@' тоже не беспокойтесь, скоро я объясню, что это такое.

Попробуйте найти/вспомнить другие слова, которые склоняются так же, как слово "gramofon". О порядке их добавления — нам нужно добавлять только записи (entries, которые мы образно назвали "словарными статьями") в главном разделе одноязычного и двуязычного словарей, а не парадигмы.

Добавим глаголы

Так, теперь наша система может переводить существительные. Однако проку от этого не много, ведь мы хотим переводить и глаголы, и даже целые предложения! Начнём с глагола "to see". В сербохорватском ему соответствует "videti". Сербохорватский язык есть т.н. нуль-субъектный язык (на сербохорватском перед личными формами глаголов личные местоимения как правило не используются). Английский же не является таковым. Так, например: английское "I see" будет переведено на сербохорватский как "vidim".

  • Vidim
  • see<p1><sg>
  • I see

Примечание: <p1> означает первое лицо

Другими примерами нуль-субъектных языков могут служить испанский, румынский и польский. Это будет важно при написании правил трансфера для глаголов.

"Нуль-субъектность" сербохорватского языка означает, что если в сербохорватский морфологический словарь мы добавим только глагол, то в английский морфологический словарь нужно будет добавить не только глагол, но и личные местоимения.

Остальными формами глагола видеть являются: vidiš, vidi, vidimo, vidite, и vide. Соответственно: you see (единственное число), he sees, we see, you see (множественное число), и they see.

Мы постараемся перевести сербохорватское "Vidim gramofoni" в английское "I see gramophones". В целях экономии времени мы добавим в словарь только достаточную для перевода информацию и оставим описание парадигмы (добавление остальных личных форм глагола) как упражнение для самостоятельной работы читателя.

Внимательный читатель наверное заметил, что перевод "vidim gramofoni неправилен, так как это предложение грамматически некорректно. Грамматически правильным предложением является "vidim gramofone", так как существительное должно быть в винительном падеже. Да, мы добавим форму винительного падежа, однако информацию о падеже добавлять не будем (в этом нет необходимости) — нужное нам слово будет фигурировать как второй вариант множественного числа. Для этого скопируйте (другими словами "клонируйте") блок 'e' для формы множественного числа и исправьте там букву 'i' (в теге <l>) на 'e'.

Прежде всего мы должны добавить несколько новых символов. Для начала символ для глагола ('verb'), который мы будем называть "vblex" (lexical verb=знаменательный глагол, в противовес модальным и другим глаголам. Наряду с числом (number) глаголы имеют категорию лица ('person') и времени ('tense'), так что добавим эти символы тоже. Напомним, что мы хотели перевести "I see" — значит, для лица мы добавим "p1", т.е. 'первое лицо', а для времени — "pri", т.е. 'present indicative'.

<sdef n="vblex"/>
<sdef n="p1"/>
<sdef n="pri"/>

После этого (как и в случае существительных) мы добавим парадигму спряжения глагола. Первой строкой будет:

<pardef n="vid/eti__vblex">

Знаком '/' разграничивается основа слова, к которой присоединяются содержимые тегов <l>.

Затем флексию для первого лица единственного числа:

<e>
   <p>
     <l>im</l>
     <r>eti<s n="vblex"/><s n="pri"/><s n="p1"/><s n="sg"/></r>
   </p>
</e>

'im' является суффиксом первого лица единственного числа (как в нашем примере 'vidim'), в теге <r> необходимо добавить 'eti', суффикс инфинитива. С остальным всё просто: 'vblex' есть , как уже выше было сказано, сокращение от "lexical verb", 'pri' — от "present indicative", 'p1' означает "first person" (первое лицо) 'sg' есть единственное число. Можно добавить словарь и форму первого лица множественного числа — в нашей статье нужно будет заменить суффикс 'im' суффиксом 'imo', а символ 'sg' символом 'pl'.

Далее нам следует добавит в основной раздел лемму и соотнести её с вышеописанной парадигмой:

<i>vid</i><par n="vid/eti__vblex"/></e>

Заметьте: в тег <i> </i> пишется корень глагола, не сама лемма.

На этом завершим составление сербохорватского словаря. Скомпилируем и проверим его.

$ lt-comp lr apertium-sh-en.sh.dix sh-en.automorf.bin
main@standard 23 25
$ echo "vidim" | lt-proc sh-en.automorf.bin
^vidim/videti<vblex><pri><p1><sg>$
$ echo "vidimo" | lt-proc sh-en.automorf.bin
^vidimo/videti<vblex><pri><p1><pl>$

Теперь сделаем тоже самое для английского словаря (не забудьте добавить в английский словарь определения символов, что было сделано на предыдущем этапе для сербохорватскоо словаря).

Парадигма выглядит так:

<pardef n="s/ee__vblex">

"основой" принимается только "s", так как формой прошедшего времени является 'saw'. Теперь мы могли бы добавить формы первого и второго лица, однако они никак друг от друга не отличаются. Более того, всеми формами настоящего времени глагола "to see" (кроме формы третьего лица единственного числа) будет "see". По этой причине мы добавим в словарь только одну запись с "see" и символом "pri".

<e>
   <p>
     <l>ee</l>
     <r>ee<s n="vblex"/><s n="pri"/></r>
   </p>
</e>

и, как обычно, запись в основном разделе:

<e lm="see"><i>s</i><par n="s/ee__vblex"/></e>

Сохраним, скомпилируем и проверим:

$ lt-comp lr apertium-sh-en.en.dix en-sh.automorf.bin
main@standard 18 19

$ echo "see" | lt-proc en-sh.automorf.bin
^see/see<vblex><pri>$

Теперь обязательная запись в двуязычный словарь:

<e><p><l>videti<s n="vblex"/></l><r>see<s n="vblex"/></r></p></e>

(не забудьте добавить sdefs из предыдущих примеров)

Перекомпилируем:

$ lt-comp lr apertium-sh-en.sh-en.dix sh-en.autobil.bin
main@standard 18 18
$ lt-comp rl apertium-sh-en.sh-en.dix en-sh.autobil.bin
main@standard 18 18

Теперь протестируем:

$ echo "vidim" | lt-proc sh-en.automorf.bin | \
  gawk 'BEGIN{RS="$"; FS="/";}{nf=split($1,COMPONENTS,"^"); for(i = 1; i<nf; i++) printf COMPONENTS[i]; if($2 != "") printf("^%s$",$2);}' | \
  apertium-transfer apertium-sh-en.sh-en.t1x sh-en.t1x.bin sh-en.autobil.bin

^see<vblex><pri><p1><sg>$^@

Анализ работает корректно, а при попытке генерации мы получаем '#', как показано ниже:

$ echo "vidim" | lt-proc sh-en.automorf.bin | \
  gawk 'BEGIN{RS="$"; FS="/";}{nf=split($1,COMPONENTS,"^"); for(i = 1; i<nf; i++) printf COMPONENTS[i]; if($2 != "") printf("^%s$",$2);}' | \
  apertium-transfer apertium-sh-en.sh-en.t1x sh-en.t1x.bin sh-en.autobil.bin | \
  lt-proc -g sh-en.autogen.bin
#see\@

Это '#' означает, что генератор не может сгенерировать правильную лексическую форму из-за ее отсутсвия. Почему это происходит?

Просто анализы не совпадают: 'see' в словаре — это 'see<vblex><pri>', а 'see' доставляемый трансфером — 'see<vblex><pri<p1><sg>'. Сербскохорватская сторона имеет больше информации, чем нужно английской стороне. Вы можете проверить это, добавив нехватающие символы в английский словарь, перекомпилировав и протестировав снова.

Но существует более парадигматический способ это сделать, суть которого заключается в написании правила. Так что, открываем файл с правилами(apertium-sh-en.sh-en.t1x sh-en.t1x.bin sh-en.autobil.bin на случай, если вы забыли).


Мы должны добавить новую категорию для 'verb'(глагола).

<def-cat n="vrb">
   <cat-item tags="vblex.*"/>
</def-cat>

Также мы должны добавить атрибуты для времени и лица. Сейчас мы сделаем всё проще, вы сможете добавить p2 и p3, но я не буду этого делать для сохранения места.

<def-attr n="temps">
   <attr-item tags="pri"/>
</def-attr>

<def-attr n="pers">
   <attr-item tags="p1"/>
</def-attr>

Еще мы должны добавить атрибут для глаголов.

<def-attr n="a_verb">
   <attr-item tags="vblex"/>
</def-attr>

Теперь к правилу:

<rule>
   <pattern>
     <pattern-item n="vrb"/>
   </pattern>
   <action>
     <out>
       <lu>
         <clip pos="1" side="tl" part="lem"/>
         <clip pos="1" side="tl" part="a_verb"/>
         <clip pos="1" side="tl" part="temps"/>
       </lu>
     </out>
   </action>
</rule>

Помните, когда вы попытались закомментировать clip-строки в предыдущем примере правила, они исчезли из трансфера? Сейчас мы делаем то же самое. Мы берем глагол с полным анализом, а на выходе получаем только частичный анализ (лемма + 'verb tag'(тег глагола) + 'tense tag' (тег времени)).


Теперь, если мы всё это перекомпилируем, то получим:

$ echo "vidim" | lt-proc sh-en.automorf.bin | \
  gawk 'BEGIN{RS="$"; FS="/";}{nf=split($1,COMPONENTS,"^"); for(i = 1; i<nf; i++) printf COMPONENTS[i]; if($2 != "") printf("^%s$",$2);}' | \
  apertium-transfer apertium-sh-en.sh-en.t1x sh-en.t1x.bin sh-en.autobil.bin
^see<vblex><pri>$^@

и:

$ echo "vidim" | lt-proc sh-en.automorf.bin  | \
  gawk 'BEGIN{RS="$"; FS="/";}{nf=split($1,COMPONENTS,"^"); for(i = 1; i<nf; i++) printf COMPONENTS[i]; if($2 != "") printf("^%s$",$2);}' | \
  apertium-transfer apertium-sh-en.sh-en.t1x sh-en.t1x.bin sh-en.autobil.bin | \
  lt-proc -g sh-en.autogen.bin
see\@

Попробуйте это со словом 'vidimo' (we see), чтобы увидеть, получили ли вы корректный вывод.

А теперь с "vidim gramafone":

$ echo "vidim gramofoni" | lt-proc sh-en.automorf.bin | \
  gawk 'BEGIN{RS="$"; FS="/";}{nf=split($1,COMPONENTS,"^"); for(i = 1; i<nf; i++) printf COMPONENTS[i]; if($2 != "") printf("^%s$",$2);}' | \
  apertium-transfer apertium-sh-en.sh-en.t1x sh-en.t1x.bin sh-en.autobil.bin | \
  lt-proc -g sh-en.autogen.bin
see gramophones\@

А что насчёт личных местоимений?

Всё это отлично, но у нас всё ещё нет личных местоимений, которые обязательны для английского языка. Для того, чтобы их добавить, сначала нам нужно отредактировать английский морфологический словарь.

Как и раньше, первое, что мы делаем — это добавляем необходимые символы:

<sdef n="prn"/>
<sdef n="subj"/>

Всего два символа: prn — pronoun (местоимение) и subj — subject (подлежащее).

Поскольку у таких личных местоимений нет ни корня, ни 'леммы', то мы просто добавляем pardef:

<pardef n="prsubj__prn">
   <e>
     <p>
       <l>I</l>
       <r>prpers<s n="prn"/><s n="subj"/><s n="p1"/><s n="sg"/></r>
     </p>
   </e>
</pardef>

Где 'prsubj' — 'personal subject'. С остальными местоимениями ('You','We', и т.д.) читатель может поупражняться сам.

Можно добавить такую запись в главный раздел:

<e lm="personal subject pronouns"><i/><par n="prsubj__prn"/></e>

Итак, сохраним, перекомпилируем и протестируем. В результате должно получиться это:

$ echo "I" | lt-proc en-sh.automorf.bin
^I/PRPERS<prn><subj><p1><sg>$

(Слово написано заглавными буквами, так как 'I' пишется с заглавной буквой).

Теперь нам нужно немного исправить правило 'verb', для вывода личного местоимения и правильной формы глагола.

Для начала, добавляем категорию :

<def-cat n="prpers">
   <cat-item lemma="prpers" tags="prn.*"/>
</def-cat>

Теперь добавляем типы местоимений как атрибуты, мы также можем добавить тип 'obj', но сейчас он нам не нужен:

<def-attr n="tipus_prn">
   <attr-item tags="prn.subj"/>
   <attr-item tags="prn.obj"/>
</def-attr>

И теперь к вводу правила:

<rule>
   <pattern>
     <pattern-item n="vrb"/>
   </pattern>
   <action>
     <out>
       <lu>
         <lit v="prpers"/>
         <lit-tag v="prn"/>
         <lit-tag v="subj"/>
         <clip pos="1" side="tl" part="pers"/>
         <clip pos="1" side="tl" part="nbr"/>
       </lu>
       <b/>
       <lu>
         <clip pos="1" side="tl" part="lem"/>
         <clip pos="1" side="tl" part="a_verb"/>
         <clip pos="1" side="tl" part="temps"/>
       </lu>
     </out>
   </action>
</rule>

Это почти тоже самое правило, как и раньше, за исключением нескольких маленьких изменений.

Нам нужно было вывести:

^prpers<prn><subj><p1><sg>$ ^see<vblex><pri>$

так, чтобы генератор смог правильно выбрать и местоимение, и форму глагола.

Небольшое пояснение:

  • <lit>, печатает буквенную строку, в данном случае "prpers"
  • <lit-tag>, печатает буквенный тег, так как сами мы не можем получить его из глагола, то просто добавляем; "prn" значит pronoun, а "subj" — subject.
  • , печатает пробел.

Заметьте, что мы получаем информацию о числе и времени напрямую из глагола.

Теперь перекомпилируем и протестируем снова:

$ echo "vidim gramofone" | lt-proc sh-en.automorf.bin  | \
  gawk 'BEGIN{RS="$"; FS="/";}{nf=split($1,COMPONENTS,"^"); for(i = 1; i<nf; i++) printf COMPONENTS[i]; if($2 != "") printf("^%s$",$2);}' | \
  apertium-transfer apertium-sh-en.sh-en.t1x sh-en.t1x.bin sh-en.autobil.bin | \
  lt-proc -g sh-en.autogen.bin
I see gramophones

Полученный результат, может быть, и не получит приз на конкурсе (как и само это руководство), но всё равно является точным переводом.

Расскажи же мне о проигрывателях (многословные конструкции 'Multiwords')

Несмотря на то, что gramophone (граммофон) — это английское слово, само по себе оно не является лучшим переводом. 'Gramophone' употребляется, в основном, для старых проигрывателей с иглой и без усиления. Лучшим вариантом перевода будет 'record player' (проигрыватель записей). Хотя это и не одно слово, мы можем работать с ним, как с одним, используя 'multiword' (многословные) конструкции.

Сербскохорватский словарь нам не понадобится, так что открываем только английский и двуязычный.

Множественное число от 'record player' — это 'record players', то есть используется та же парадигма, что и для gramophone (gramophone__n)— мы просто добавляем 's'. Всё, что нам нужно сделать — это добавить новый элемент в главный раздел.

<e lm="record player"><i>record<b/>player</i><par n="gramophone__n"/></e>

Единственное различие — использование тега , хотя и это не ново, поскольку мы видели это в файле с правилами.

Перекомпилируем и тестируем:

$ echo "vidim gramofone" | lt-proc sh-en.automorf.bin | \
  gawk 'BEGIN{RS="$"; FS="/";}{nf=split($1,COMPONENTS,"^"); for(i = 1; i<nf; i++) printf COMPONENTS[i]; if($2 != "") printf("^%s$",$2);}' | \
  apertium-transfer apertium-sh-en.sh-en.t1x sh-en.t1x.bin sh-en.autobil.bin  | \
  lt-proc -g sh-en.autogen.bin
I see record players


Отлично. Огромная выгода использования 'multiwords' (многословные конструкции) заключается в том, что можно переводить идиоматические выражения дословно, без необходимости пословного перевода. Например, английская фраза "at the moment" (сейчас, в данный момент) будет переведена на сербскохорватский как "trenutno" (trenutak — момент, trenutno — наречие, образованное от него) — было бы невозможно перевести эту фразу на сербскохорватский пословно.

Работа с незначительными вариациями

Сербскохорватский язык имеет несколько вариантов написания, из-за диалектических вариаций. Этот язык имеет интересную фонетическую письменную систему — как слышится, так и пишется. Например, люди, говорящие на Иекавском диалекте сказали бы "rječnik", в то же время, кто-нибудь говорящий на Экавском сказал бы "rečnik". Это отражает разницу в произношении праславянской гласной 'ят'.

Анализ

Должен существовать легкий способ борьбы с этим, и он есть: снова использовать парадигмы. Они используются не только для добавления грамматических символов, но и для замены букв и символов. Для примера, посмотрите на парадигму для распознавания при анализе и "e" и "je". Эта парадигма, как и остальные, должна быть записана в Сербохорватский словарь.

  <pardef n="e_je__yat">
    <e>
      <p>
        <l>e</l>
        <r>e</r>
      </p>
    </e>
    <e>
      <p>
        <l>je</l>
        <r>e</r>
      </p>
    </e>
  </pardef>

Затем в главном разделе:

    <e lm="rečnik"><i>r</i><par n="e_je__yat"/><i>čni</i><par n="rečni/k__n"/></e>

Это позволяет нам только анализировать обе формы, а если мы хотим и генерировать обе формы, то нужно проделать больше работы.

Генерация

См. также