Як створити нову мовну пару

From Apertium
Jump to navigation Jump to search

Як створити нову мовну пару.

Цій документ пояснить вам як почати нову мовну пару для Apertium, системи машинного перекладу з нуля.

Вам не треба знати багато про лінгвистику або машинний переклад, аби ви знали як розрізняті іменники від дієслов (та прийменники і т.д)

Введення

Apertium є, як ви певно зрозуміли, система машинного перекладу. Ну, не зовсім, це платформа машинного перекладу. Вона забеспечює вас з двигуном (англ. "engine") та інструментами, з їхньою допомогою ви можете створювати ваші власні системи машинного перекладу. Ви тільки повинні записати данні. Данні скаладаються з трьох словників та кілька правил (які забезпечують перестановку слів та інші грамматичні речі).

За болі підрібною інформацією, ви можете відвідати сайт з відмінимми статтями тут: Publications

Вам знадобиться

  • lttoolbox (>= 3.0.0)
  • libxml utils (xmllint etc.)
  • apertium (>= 3.0.0)
  • текстовий редактор (або спеціальний XML редактор, якщо вам так хочеться)

Цій документ не пояснює як устанавлювати ці пакети, за болі підрібною інформацією будь ласка відвідайте документаційну секцію на сайті Aperitum.

Із чого зроблена мовна пара

Apertium являє собою систему машинного перекладу поверхнево-передачного типу. В основному він має справу зі словниками та правилами поверхневій передачі. На практиці поверхнева передача відрізняється від глибокої передачі тим, що при ній не виконується повний синтаксичний розбір речіннь, а правила, на відміну від операцій на дереві синтаксичного розбору, являють собою операції з групами лексичних одиниць. Є три таких словників:

  1. Морфологічний словник для мови xx: він містить правила про зміну слов у мові xx. У нашому прикладі цей словник буде називатися так: apertiumh-en.sh.dix
  2. Морфологічний словник для мови yy: він, у свою чергу, містить інформацію про зміну слов у мові yy. У нашому прикладі він має назву: apertium-sh-en.en.dix
  3. Двомовний словник: містить перекладні відповідності слів і символів двох мов. Він буде називатися так: apertium-sh-en.sh-en.dix

У мовній парі будь-яка з мов, що складають цю пару, може бути як вхідною, так і вихідною мовою, тобто ці терміни вживаються умовно.

Мовну пару складує також два файли з правилами передачі. Це правила, які керують перестановкою слів у реченнях, наприклад chat noir -> кіт чорний -> чорний кіт. Також ці правила забезпечують узгодження роду у реченні, числа і т.д. Вони также можуть використовуватися і для вставки або видалення лексичних одиниць, як це буде описано нижче. Файли:

  • Правила передачі з мови xx до мови yy: ці правила описують, яким змінам піддадуться пропозиції мови xx при перекладі на мову yy. У нашому прикладі це: apertium-sh-en.sh-en.t1x
  • Правила передачі з мови yy до мови xx: цей файл містить правила, що описують перетворення, які повинні бути здійснені при перекладі з мови yy на мову xx. У нашому прикладі цей файл буде називатися так: apertium-sh-en.en-sh.t1x

Багато з існуючих мовних пар містять інші файли, але ми не будемо розглядати їх в даному керівництві. Нам достатньо ціх файлів для створення функціональної системи.