Курсы машинного перевода для языков России/Раздел 8

From Apertium
Jump to navigation Jump to search

Основная задача данного раздела показать, что создание новой системы перевода с системой Apertium не обязательно должно стоить несколько миллионов евро и занимать несколько лет. Значительная доля систем Apertium была разработана несколькими людьми всего за несколько месяцев за счет использования существующих ресурсов, и подвижного движка системы.

While more time and money is often an effective way of making a better machine translation system, a lot can be said for realistic expectations, careful planning and effective contributions by volunteer developers. Хотя наличие денег и времени часто является предпосылкой для создания лучшей системы машинного перевода, многое можно сделать имея реалистичные ожидания, тщательного планируя и эффективно используя вклад добровольцев-разработчиков.

Примеры из практики

Следующие реальные примеры отражают 4 успешных но различных стиля создания систем The following case studies highlight four different successful development styles.

Испанский и каталонский

Долгосрочное государственное финансирование, несколько разработчиков. На каталонском говорят около девяти миллионов человек.

Переводчик с испанского на каталонский является старейшим переводчиком в Apertium. Он был переписан и расширен на основе переводчика interNOSTRUM разработанного в Университете d'Alacant. В общей сложности, он создавался в течение 12 лет. Начальная версия interNOSTRUM была выпущена в начале 2000 года и заняла около 72 человеко-месяцев (четыре человека, 18 месяцев) которые разработал как движок так и лингвистические данные. Он широко использовался, насчитывая около тысячи запросов в день.

В 2004 году Apertium, при финансовой поддержке Министерства науки, промышленности и торговли Испании, запустил проект по переписки кода для общего доступа, а также по преобразованию лингвистических данных. После одного человеко-года, была выпущена первая версия испано-каталонского переводчика.

Переводчик очень высокого качества, и выдерживает сравнение с коммерческими проектами - более 95% охвата словаря (около 5 неизвестных слов из 100), и процент ошибочных слов между 3-7% (из 100 слов около 3 - 7 нужно заменить для получения адекватного перевода). Это второй по популярности переводчик на сайте Apertium, и основной машинный переводчик для ряда университетов в Испании при работе с этой языковой парой.

Новонорвежский язык (нюнорск Nynorsk) и норвежский Bokmål

Краткосрочное финансирование на конкурсной основе, один разработчик. Нюнорск - считается предпочитаемым литературным языком для около 580,000 норвежцев.

The Nynorsk to Bokmål translator is the most-used translator on our webpage. It was started in 2008 by Francis Tyers and Trond Trosterud, using existing resources such as the Norsk Ordbank (a large full-form list of words in Nynorsk and Bokmål) and the Oslo-Bergen tagger (a constraint grammar based disambiguator for both varieties of Norwegian). Переводчик с языка Нюнорск на Bokmål - самый популярный на нашем сайте. Его начали разрабатывать в 2008 году Фрэнсис Таерз и Трунд Тростеруд, используя имеющиеся данные, такие как Norsk Ordbank (список полных слов на языках нюнорск и Bokmål) и маркировщик слов Осло-Берген (грамматика ограничений, основанная на инструменте разрешения неоднозначности для обоих видов норвежского языка).

The original implementation was never completed, but the project was taken up again in 2009 during the Google Summer of Code competition by Kevin Unhammer, a masters' student in computational linguistics at the University of Bergen. Over a period of three months, Kevin completely remade the conversion of both the Ordbank, and the constraint grammar, and wrote a series of transfer rules. Начальная версия не была завершено, но проект был подхвачен в 2009 году во время летних соревнований по коду Google Кевином Унхаммеров, студентом компьютерной лингвистики Университета Бергена. В течение трех месяцев, Кевин полностью переделал преобразование обоих списков Ordbank, грамматику ограничений и написал серию правила переноса.

Он потратил 2 недели на преобразование списков Ordbank в формат Apertium, затем еще неделю на преобразование маркировщика Осло-Берген. Три недели на правила переноса, а потом еще три недели на расширение словарей. Две недели затем были потрачены на проверку правильности работы задач, например, на проверку, что только слова из всех трех словарей были включены. И последняя неделя была посвящена оценке.

Итоговый охват системы составляет около 90%, например, из корпуса около 10 неизвестных слов из 100 в среднем. Ошибочное слово - около 17%, что означает, из 100 слов 17 должны быть изменены для получения адекватного перевода. Эта система выдерживает конкуренцию с другими имеющимися системы для перевода пары нюнорск-букмол (Nynorsk-Bokmål). На система сегодня приходится более трети всех переводов осуществляющихся на сайте Apertium.

Бретонский и французский

Среднесрочный волонтерский проект при очень коротком государственном и частном финансировании, несколько разработчиков. На бретонском говорят около 200,000 людей.

Work on the Breton--French translator was started in 2008 by Francis Tyers in his spare time. After three months, a proof-of-concept system, using transfer rules from the French--Spanish pair was presented at Ofis ar Brezhoneg in December. It was decided that funding would be found to support another month of development to finish a prototype system which would be useful for assimilation purposes. Работа над бретоно - французским переводчиком была начата в 2008 году Фрэнсисом Таерзом в его свободное время. После трех месяцев, систем подтверждения концепции, используя правила переноса из пары французский - испанский была представлена ​Офис ар Брежонег в декабре. Было решено, что будет найдено финансирование для доработки в течение месяца прототипа системы, которая была бы полезна для усвоения целей.

В конце концов, финансирование поездки носителя бретонского языка в Алакант была организована Офис ар Брежонег, университет d'Alacant оплатил месячную зарплату бретонского носителя и компания инженерной лингвистики Промпзит оплатила работу Фрэнсиса Таерза. Еще на два месяца. В общей сложности стоимость проекта составила около € 3000. Первая версия переводчика был выпущена в мае 2009 года. In the end, funding for the travel of a Breton speaker to Alacant was arranged by Ofis ar Brezhoneg, the Universitat d'Alacant paid for a month's wages of the Breton speaker, and Prompsit Language Engineering paid for a month of Francis Tyers' time. A further two months. In total, the monetary cost was around €3,000. The first version of the translator was released in May of 2009.

Первая версия имела охват около 85%, и высокий процент ошибочных слов, что все же позволяло переводчику быть полезным для ассимиляции. Сегодня система available на главной странице Офис ар Brezhoneg, и обновляется сотрудниками Офис, в том числе его директором, Фулупом Якезом.

Испанский и арагонский

Среднесрочный волонтерский проект без государственного финансирования, два разработчика. На арагонском говорит около 10,000 человек.

Work on the Spanish-Aragonese translator was begun by Apertium-developer Jim O'Regan, at the request of Aragonese-speaker Juan Pablo Martínez. After three weeks of initial effort, spread over the course of a year, a final week of concentrated effort lead to the release of the first prototype version, translating from Aragonese to Spanish only. Работа над испанско-арагонским переводчиком была начата разработчиком Apertium Джимом O'Реганом, по просьбе носителя арагонского языка Хуан Пабло Мартинеса. Три недели первоначальных усилий растянутых в течение года и последняя интенсивная неделя работы привели к выпуску первой версии прототипа, переводчика с арагонского на испанский язык только.

Первая двунаправленная версия была завершена Хуаном Пабло после еще ​​6 недель работы, растянутых на год. Единственный доступный ресурс в начале этой работы на арагонском языке были арагонская версия Википедии и несколько шаблонов глаголов в английском издании Викисловаря. Арагонско-испанский словарь был создан с нуля, но морфологический анализатор испанского языка и маркировщик частей речи были взяты из испанско-каталонской пары. Создание системы никак не финансировалось.

Способствующие факторы

Существующие ресурсы

Когда языковые ресурсы, такие как корпуса, словари, грамматики, морфологические анализаторы, списки лемм и т.д. находятся в свободном доступе / с лицензией на возможность свободного использования они могут быть использованы повторно и сократить время разработки. Тем не менее, количество времени, необходимого для переработки не следует недооценивать.

Морфологический преобразователь, предназначенный для проверки орфографии, может быть очень хорошим для проверки орфографии, но его может быть не так-то легко адаптировать для анализа / генерации в системе машинного перевода. Различные применения имеют различные требования, и это должно быть учтено при принятии решения повторного использования существующих ресурсов, стоит ли адаптировать имеющийся ресурс или создать его с нуля.

Цели

При запуске проекта, важно ответить для себя на следующие вопросы и обозначить цели, например,

  • Кто является целевой аудиторией?
    • Система будет предназначена для пользования профессиональными переводчиками, переводчиками-любителями или просто обывателями ?
  • Для чего будет использоваться система?
    • Assimilation: получить общее представление о чем текст
    • Dissemination: получить примерный перевод
    • Domain: будет ли система использоваться для перевода новостей, энциклопедической информации, юридических текстов, погоды и т.д.?
  • Какие существующие языковые ресурсы могут быть повторно использованы?
    • Есть ли уже в наличии хорошие бесплатные словари?
  • Сколько у нас есть времени для построения системы?
    • возможно 6 месяцев недостаточно чтобы создать идеальную многоцелевую систему машинного перевода дл всех языковых пар средней Волги....,
      • ... но этого будет достаточно чтобы разработать прототип системы для перевода прогноза погоды.

Если система будет предназначаться для перевода текстов с государственной информацией для распространения, она обязательно будет иметь характеристики, отличные от системы для перевода статей в Википедии.

Создание системы с высоким охватом словаря, открытой системы для усвоения и распространения данных это хорошая идея, но практически это невозможно при ограниченных ресурсах.

Время

Количество времени, необходимого для создания новой языковой пары на платформе Apertium во многом зависит от целей проекта, существующих ресурсов и опыты разработчиков. Прототип или proof of concept system может быть создана в период от 10 дней до 3 месяцев. В то время как полноценная работающая система может занять от 3 месяцев (как в случае пары нюнорск-букмол) до нескольких лет.

В следующей таблице приведены данные развития языковых пар в Apertium за последние шесть лет.


Год Всего пар Новые пары Языковые пары
2005 3 3 es-ca, es-gl, es-pt
2006 6 3 es-ca, es-gl, es-pt, en-ca, fr-ca, oc-ca
2007 8 2 es-ca, es-gl, es-pt, en-ca, fr-ca, oc-ca, es-ro, fr-es
2008 18 10 es-ca, es-gl, es-pt, en-ca, fr-ca, oc-ca, es-ro, fr-es, oc-es, en-gl, cy-en, eo-ca, eo-es, eu-es, pt-gl, eo-en, en-es, pt-ca
2009 21 3 es-ca, es-gl, es-pt, en-ca, fr-ca, oc-ca, es-ro, fr-es, oc-es, en-gl, cy-en, eo-ca, eo-es, eu-es, pt-gl, eo-en, en-es, pt-ca, nn-nb, sv-da, br-fr
2010 23 2 es-ca, es-gl, es-pt, en-ca, fr-ca, oc-ca, es-ro, fr-es, oc-es, en-gl, cy-en, eo-ca, eo-es, eu-es, pt-gl, eo-en, en-es, pt-ca, nn-nb, sv-da, br-fr, es-ast, mk-bg
2011 33 10 es-ca, es-gl, es-pt, en-ca, fr-ca, oc-ca, es-ro, fr-es, oc-es, en-gl, cy-en, eo-ca, eo-es, eu-es, pt-gl, eo-en, en-es, pt-ca, nn-nb, sv-da, br-fr, es-ast, mk-bg, is-en, ca-it, eo-fr, mk-en, es-an, eu-en, es-it, sh-mk, tr-az, tr-ky

Финансирование

Как мы увидели на конкретных примерах, языковые пары в Apertium создавались и финансировались разными способами. В таблице приведены способы финансирования "стабильных" систем машинного перевода в Apertium. Самые популярные выделены жирным.

Спонсор Вид Языковая пара(ы)
Google Лето кода Конкурс mk-bg, nn-nb, sh-mk, sv-da, tr-az, tr-ky
Волонтеры eo-fr, es-an, mk-en, ca-it, eo-en
Generalitat de Catalunya Местное правительство oc-ca, oc-es, en-ca,
Диссертация cy-en, fr-ca, pt-ca
Universitat d'Alacant Образовательное учреждение eu-es, (br-fr), es-pt
Министерство промышленности, торговли и туризма Правительство страны es-ca, es-gl
ABC Enciklopedioj Организация eo-es, eo-ca
imaxin|software Организация en-gl, pt-gl
Universidá d'Uviéu Образовательное учреждение es-ast
Prompsit Организация es-it, (br-fr), (fr-es)
Eleka Ingenieritza Linguistikoa Организация fr-es
Исследовательский совет Исландии Правительство страны is-en
Ofis ar Brezhoneg Quasi общественная организация br-fr
Европейская ассоциация машинного перевода Некоммерческая организация eu-en

Практика

  • Найдите существующие языковые ресурсы для вашей языковой пары и отметьте, какими документами они регламентируются.
  • Разработайте реалистичный рабочий план для разработки нового переводчика для данной языковой пары в системе Apertium принимая во внимание:
    • Существующие ресурсы
    • Цель переводчика
    • Человеческий ресурс
    • Политическую финансовую и общественную поддержку