Difference between revisions of "Курсы машинного перевода для языков России/Раздел 8"
m (moved Машинный перевод для языков России/Раздел 8 to Курсы машинного перевода для языков России/Раздел 8: ... to get a better structure.) |
|||
(11 intermediate revisions by 2 users not shown) | |||
Line 1: | Line 1: | ||
{{TOCD}} |
{{TOCD}} |
||
Основная задача данного раздела показать, что создание новой системы перевода с системой Apertium не обязательно должно стоить несколько миллионов евро и занимать несколько лет. Значительное количество систем Apertium была разработана несколькими людьми всего за несколько месяцев за счет использования существующих ресурсов, и подвижного движка системы. |
|||
Главная задача данного раздела The main idea of this session is to show that making a new translation system with Apertium need not be a multi-million euro undertaking spanning several years. A good proportion of the systems developed with Apertium have taken only a few person months to develop, taking advantage of existing resources, and the extensible nature of the engine. |
|||
Хотя наличие денег и времени часто является предпосылкой для создания лучшей системы машинного перевода, многое можно сделать имея реалистичные ожидания, детальное планирование и эффективно используя вклад добровольцев-разработчиков. |
|||
While more time and money is often an effective way of making a better machine translation system, a lot can be said for realistic expectations, careful planning and effective contributions by volunteer developers. |
|||
== Примеры из практики == |
|||
== Case studies == |
|||
Следующие примеры показывают 4 успешных, но отличных путей создания систем машинного перевода |
|||
The following case studies highlight four different successful development styles. |
|||
=== Испанский и каталонский === |
|||
=== Spanish and Catalan === |
|||
:''Долгосрочное государственное финансирование, несколько разработчиков. На каталонском говорят около девяти миллионов человек.'' |
|||
:''Long-term public funding, several developers. Catalan has around nine million speakers.'' |
|||
Машинный переводчик с испанского на каталонский является старейшим переводчиком в Apertium. Он был переписан и расширен на основе переводчика <code>interNOSTRUM</code>, разработанного в Университете д'Алакант. В общей сложности, он создавался в течение 12 лет. Начальная версия <code>interNOSTRUM</code> была выпущена в начале 2000 года и заняла около 72 человеко-месяцев (четыре человека, 18 месяцев), которые создали движок и лингвистические данные. Он широко использовался, насчитывая около тысячи запросов в день. |
|||
The Spanish to Catalan translator is the oldest translator in Apertium. It is a rewrite / expansion of the <code>interNOSTRUM</code> translator that was developed at the Universitat d'Alacant. In total, it has been developed over a period of around 12 years. The original <code>interNOSTRUM</code> was released in early 2000 and took around 72 person-months (four people, 18 months) to develop (both engine, and linguistic data). It was widely used, with thousands of requests per day. |
|||
В 2004 году Apertium, при финансовой поддержке Министерства науки, промышленности и торговли Испании, запустил проект по переписки кода для общего доступа, а также по преобразованию лингвистических данных. После одного человеко-года, была выпущена первая версия испано-каталонского переводчика. |
|||
In 2004, the Apertium project was started with funding from the Ministry of Science, Industry and Commerce of the Spanish State to rewrite the code as open-source, and to convert the linguistic data. After one person year, the first version of the Spanish--Catalan translator was released. |
|||
Переводчик очень высокого качества, выдерживает сравнение с коммерческими проектами - более 95% охвата словаря (около 5 неизвестных слов из 100), и процент ошибочных слов между 3-7% (из 100 слов около 3 - 7 нужно заменить для получения адекватного перевода). Это второй по популярности переводчик на сайте Apertium, и основной машинный переводчик для ряда университетов в Испании при работе с этой языковой парой. |
|||
The quality of the translator is very high, and compares with commercial systems -- over 95% coverage (around 5 unknown words out of 100 words), and between 3-7% word-error rate (out of 100 words, between 3-7 need to be changed in order to get an adequate translation). It is the second most used translator on the Apertium website, and is the main machine translation system of a number of universities in Spain for this language pair. |
|||
=== |
=== Новонорвежский язык (нюнорск, Nynorsk) и норвежский бокмал (Bokmål) === |
||
:''Краткосрочное финансирование на конкурсной основе, один разработчик. Нюнорск - считается предпочитаемым литературным языком для 580,000 норвежцев.'' |
|||
:''Short-term funding from a competition, one developer. Nynorsk is the "preferred standard" of approximately 580,000 Norwegians.'' |
|||
Переводчик с языка Нюнорск на Бокмал - самый популярный на нашем сайте. Его начали разрабатывать в 2008 году Фрэнсис Таерз и Трун Тростерюд, используя имеющиеся данные, такие как Norsk Ordbank (большой список полных слов на языках нюнорск и бокмал) и маркировщик слов Осло-Берген (грамматика ограничений, основанная на инструменте разрешения неоднозначности для обоих видов норвежского языка). |
|||
The Nynorsk to Bokmål translator is the most-used translator on our webpage. It was started in 2008 by Francis Tyers and Trond Trosterud, using existing resources such as the Norsk Ordbank (a large full-form list of words in Nynorsk and Bokmål) and the Oslo-Bergen tagger (a constraint grammar based disambiguator for both varieties of Norwegian). |
|||
Начальная версия не была завершена, но проект был подхвачен в 2009 году Кевином Унхаммером, студентом компьютерной лингвистики Университета Бергена во время летней программы компании Google по отбору проектов с открытым кодом. В течение трех месяцев Кевин полностью переделал преобразование обоих списков Ordbank, грамматику ограничений и написал серию правила переноса. |
|||
The original implementation was never completed, but the project was taken up again in 2009 during the Google Summer of Code competition by Kevin Unhammer, a masters' student in computational linguistics at the University of Bergen. Over a period of three months, Kevin completely remade the conversion of both the Ordbank, and the constraint grammar, and wrote a series of transfer rules. |
|||
Он потратил 2 недели на преобразование списков Ordbank в формат Apertium, затем еще неделю на преобразование маркировщика Осло-Берген. Три недели на правила переноса, а потом еще три недели на расширение словарей. Затем две недели были потрачены на тестирование работы задач, например, на тестирование чтобы только слова из всех трех словарей были включены. И последняя неделя была посвящена оценке. |
|||
He spent 2 weeks converting the Ordbank to Apertium format, then another week converting the Oslo-Bergen tagger. Three weeks on transfer rules, and then another three weeks expanding the dictionaries. Two weeks were then spent on "cleaning up" tasks, e.g. making sure that only words that were in all three dictionaries were included. Then the final week on evaluation. |
|||
Итоговый охват системы составляет около 90%, т.е. на основе корпуса около 10 неизвестных слов из 100 слов в среднем. Ошибочные слова - около 17%, что означает, что из 100 слов 17 должны быть изменены для получения адекватного перевода. Эта система выдерживает конкуренцию с другими имеющимися системами для перевода пары нюнорск-бокмал (Nynorsk-Bokmål). Сегодня на систему приходится более трети всех переводов на сайте Apertium. |
|||
The final coverage of the system was around 90%, e.g. over a set of corpora 10 unknown words out of 100 on average. The word-error rate was around 17%, meaning that out of 100 words, 17 have to be changed in order to get an adequate translation. This is competitive with the other available system for translation Nynorsk-Bokmål. The system today accounts for over a third of all translations carried out on the Apertium website. |
|||
=== Бретонский и французский === |
|||
=== Breton and French === |
|||
:''Среднесрочный волонтерский проект при очень коротком государственном и частном финансировании, несколько разработчиков. На бретонском говорят около 200,000 людей.'' |
|||
:''Medium-term volunteer effort with very-short term public/private funding and several developers. Breton is spoken by around 200,000 people.'' |
|||
Работа над бретон-французским переводчиком была начата в 2008 году Фрэнсисом Таерзом в его свободное время. После трех месяцев, систем подтверждения концепции, используя правила переноса из пары французский - испанский была представлена в Офис бретонского языка в декабре. Было решено найти финансирование, чтобы в течение месяца доработать прототип системы, которая была бы полезна для определенных целей. |
|||
Work on the Breton--French translator was started in 2008 by Francis Tyers in his spare time. After three months, a proof-of-concept system, using transfer rules from the French--Spanish pair was presented at Ofis ar Brezhoneg in December. It was decided that funding would be found to support another month of development to finish a prototype system which would be useful for assimilation purposes. |
|||
В конце концов, финансирование поездки носителя бретонского языка в Алакант была организована Офисом бретонского языка, а университет Далакант оплатил месячную зарплату бретонского носителя и компания инженерной лингвистики Промпзит оплатила работу Фрэнсиса Таерза. Еще на два месяца. В общей сложности стоимость проекта составила около € 3000. Первая версия переводчика был выпущена в мае 2009 года. |
|||
In the end, funding for the travel of a Breton speaker to Alacant was arranged by Ofis ar Brezhoneg, the Universitat d'Alacant paid for a month's wages of the Breton speaker, and Prompsit Language Engineering paid for a month of Francis Tyers' time. A further two months. In total, the monetary cost was around €3,000. The first version of the translator was released in May of 2009. |
|||
Первая версия имела охват около 85%, высокий процент ошибочных слов, что все же позволяло переводчику быть полезным для определенных целейи. Сегодня система [http://www.ofis-zh.org/fr/ressources_linguistiques/index-troerofis.php Доступна] на главной странице Офис ар Brezhoneg, и обновляется сотрудниками Офис, в том числе его директором, Фулупом Якезом. |
|||
=== Испанский и арагонский === |
|||
=== Spanish and Aragonese === |
|||
:''Среднесрочный волонтерский проект без государственного финансирования, два разработчика. На арагонском говорит около 10,000 человек.'' |
|||
:''Medium-term volunteer effort with no public funding and two developers. Aragonese has around 10,000 speakers.'' |
|||
Работа над испанско-арагонским переводчиком была начата разработчиком Apertium Джимом O'Реганом, по просьбе носителя арагонского языка Хуан Пабло Мартинеса. Три недели усилий, растянутых в течение года, и последняя интенсивная неделя работы привели к выпуску первой версии прототипа, переводчика только с арагонского на испанский язык. |
|||
Work on the Spanish-Aragonese translator was begun by Apertium-developer Jim O'Regan, at the request of Aragonese-speaker Juan Pablo Martínez. After three weeks of initial effort, spread over the course of a year, a final week of concentrated effort lead to the release of the first prototype version, translating from Aragonese to Spanish only. |
|||
Первая двунаправленная версия переводчика была завершена Хуаном Пабло после еще 6 недель работы, растянутых на год. Единственными доступными ресурсами в начале этой работы на арагонском языке были арагонская версия Википедии и несколько шаблонов глаголов в английском издании Викисловаря. Арагонско-испанский словарь был создан с нуля, но морфологический анализатор испанского языка и маркировщик частей речи были взяты из испанско-каталонской пары. Создание системы никак не финансировалось. |
|||
The first bidirectional version was completed after another 6 weeks of work by Juan Pablo, spread over the course of another year. The only available resource at the beginning of this work for Aragonese was the Aragonese edition of Wikipedia and a handful of verb templates on the English edition of Wiktionary. The Aragonese--Spanish dictionary was created by hand, but the Spanish morphological analyser/generator and part-of-speech tagger were taken from the Spanish--Catalan pair. No funding was received from any source towards the creation of the system. |
|||
== Вспомогательные факторы == |
|||
== Contributing factors == |
|||
=== Существующие ресурсы === |
|||
=== Existing resources === |
|||
Когда языковые ресурсы, такие как корпуса, словари, грамматики, морфологические анализаторы, списки лемм и т.д. находятся в свободном доступе / с лицензией на возможность свободного использования, они могут быть использованы повторно и сократить время разработки. Тем не менее, количество времени, необходимого для переформатирования не следует недооценивать. |
|||
When linguistic resources, for example corpora, dictionaries, grammars, morphological analysers, lists of lemmata etc. are available under free/open-source licences they can be reused and save development time. However, the amount of time taken for adaptation should not be underestimated. |
|||
Морфологический преобразователь, предназначенный для проверки орфографии, может быть очень хорошим для проверки орфографии, но его может быть не так-то легко адаптировать для анализа / генерации в системе машинного перевода. Для разных целей разные требования и это должно быть учтено при принятии решения повторного использования существующих ресурсов: стоит ли адаптировать имеющийся ресурс или создать его с нуля. |
|||
A morphological transducer designed for spell checking might make a great spell checker, but it might not be so easy to adapt it for analysis/generation in a machine translation system. Different applications have different requirements, and this should be taken into account when deciding to reuse an existing resource, to adapt it, or to start from scratch. |
|||
=== |
=== Цели === |
||
При запуске проекта, важно ответить для себя на следующие вопросы и обозначить цели, например, |
|||
It is important when starting a project to ask questions and clearly define |
|||
objectives, for example, |
|||
* Кто является целевой аудиторией? |
|||
* Who is the target audience ? |
|||
** Система будет предназначена для пользования профессиональными переводчиками, переводчиками-любителями или просто обывателями ? |
|||
** Do we want the system to be used by professional translators, by lay-translators, by ordinary members of the public ? |
|||
* Для чего будет использоваться система? |
|||
* What is the system intended to be used for ? |
|||
** Цель: получить общее представление о чем текст |
|||
** Assimilation: For giving an idea of what a text is about |
|||
** Применение: получить примерный перевод |
|||
** Dissemination: For producing draft translations |
|||
** Область: будет ли система использоваться для перевода новостей, энциклопедической информации, юридических текстов, погоды и т.д.? |
|||
** Domain: Will it be used for news texts, encyclopaedic texts, legal texts, the weather, etc. ? |
|||
* Какие существующие языковые ресурсы могут быть повторно использованы? |
|||
* What existing linguistic resources can be reused ? |
|||
** Существуют ли хорошие бесплатные словари? |
|||
** Are there already good, free dictionaries available ? |
|||
* Сколько у нас есть времени для построения системы? |
|||
* How long do we have to build the system ? |
|||
** возможно 6 месяцев недостаточно чтобы создать идеальную многоцелевую систему машинного перевода дл всех языковых пар средней Волги...., |
|||
** Six months is probably not enough enough time to build your ideal wide-domain interlingua MT system between all the languages of the Middle Volga, ... |
|||
*** ... но этого будет достаточно чтобы разработать прототип системы для перевода прогноза погоды. |
|||
*** ... but it might be enough to build some prototype systems for translating the weather forecast. |
|||
Если система будет предназначаться для перевода текстов с государственной информацией для ознакомления, она обязательно будет иметь характеристики, отличные от системы для перевода статей в Википедии. |
|||
If a system is being planned to translate governmental texts for dissemination, |
|||
then it will necessarily have different features than if it is planned to translate |
|||
Wikipedia articles for assimilation. |
|||
Например, создание системы с высоким объем словаря, открытой системой для усвоения и распространения данных может быть хорошей идеей, но практически это невозможно при ограниченных ресурсах. |
|||
Making a high-coverage, open domain system for assimilation and dissemination is a |
|||
nice idea, but practically is not possible given limited resources. |
|||
=== |
=== Время === |
||
Количество времени, необходимого для создания новой языковой пары на платформе Apertium |
|||
во многом зависит от целей проекта, существующих ресурсов и опыта разработчиков. Прототип или образец системы могут быть созданы в период от 10 дней до 3 месяцев. В то время как полноценная работающая система может занять от 3 месяцев (как в случае пары нюнорск-бокмал) до нескольких лет. |
|||
В следующей таблице приведены данные развития языковых пар в Apertium за последние шесть лет. |
|||
The amount of time taken to make a new language pair based on the Apertium platform |
|||
depends greatly on the objectives of the project, the existing resources available |
|||
and the experience of the developers. A prototype or proof of concept system can be |
|||
created in anywhere from 10 days to 3 months. Whereas a production system can |
|||
take from 3 months (as in the case of Nynorsk-Bokmål) to several years. |
|||
The following table summarises the development of language pairs in Apertium over the last six years. |
|||
{|class="wikitable" |
{|class="wikitable" |
||
! |
! Год !! Всего пар !! Новые пары !! Языковые пары |
||
|- |
|- |
||
| 2005 || 3 || 3 || es-ca, es-gl, es-pt |
| 2005 || 3 || 3 || es-ca, es-gl, es-pt |
||
Line 109: | Line 102: | ||
|} |
|} |
||
=== |
=== Финансирование === |
||
Как мы увидели из конкретных примеров, языковые пары в Apertium создавались и финансировались разными способами. В таблице приведены способы финансирования "стабильных" систем машинного перевода в Apertium. Самые популярные выделены жирным. |
|||
As we saw in the case studies, Apertium language pairs have been funded and created in many different ways. The following table summarises the ways in which development on the "stable" machine translation systems in Apertium was funding. The most used systems online are highlighted in bold face. |
|||
{|class="wikitable" |
{|class="wikitable" |
||
! |
! Спонсор !! Вид !! Языковая пара(ы) |
||
|- |
|- |
||
| Google |
| Google Лето кода || Конкурс || mk-bg, '''nn-nb''', sh-mk, sv-da, tr-az, tr-ky |
||
|- |
|- |
||
| — || |
| — || Волонтеры || eo-fr, es-an, mk-en, ca-it, eo-en |
||
|- |
|- |
||
| Generalitat de Catalunya || |
| Generalitat de Catalunya || Местное правительство || oc-ca, oc-es, en-ca, |
||
|- |
|- |
||
| — || |
| — || Диссертация || cy-en, fr-ca, pt-ca |
||
|- |
|- |
||
| Universitat d'Alacant || |
| Universitat d'Alacant || Образовательное учреждение || eu-es, (br-fr), '''es-pt''' |
||
|- |
|- |
||
| Министерство промышленности, торговли и туризма Испании || Правительство страны || '''es-ca''', es-gl |
|||
| Ministry of Industry, Commerce and Tourism || National government || '''es-ca''', es-gl |
|||
|- |
|- |
||
| ABC Enciklopedioj || |
| ABC Enciklopedioj || Организация || eo-es, eo-ca |
||
|- |
|- |
||
| imaxin<nowiki>|</nowiki>software || |
| imaxin<nowiki>|</nowiki>software || Организация || en-gl, pt-gl |
||
|- |
|- |
||
| Universidá d'Uviéu || |
| Universidá d'Uviéu || Образовательное учреждение || es-ast |
||
|- |
|- |
||
| Prompsit || |
| Prompsit || Организация || es-it, (br-fr), (fr-es) |
||
|- |
|- |
||
| Eleka Ingenieritza Linguistikoa || |
| Eleka Ingenieritza Linguistikoa || Организация || fr-es |
||
|- |
|- |
||
| |
| Исследовательский совет Исландии || Правительство страны || is-en |
||
|- |
|- |
||
| Ofis ar Brezhoneg || |
| Ofis ar Brezhoneg || Полуобщественная организация || '''br-fr''' |
||
|- |
|- |
||
| Европейская ассоциация машинного перевода || Некоммерческая организация || eu-en |
|||
| European Assoc. Machine Translation || Non-governmental organisation || eu-en |
|||
|- |
|- |
||
|} |
|} |
||
==Практика== |
|||
==Practical== |
|||
* Найдите существующие языковые ресурсы для вашей языковой пары и отметьте, какими документами они регламентируются. |
|||
* Search for existing linguistic resources for your language pair, making a note of the licence they are under. |
|||
* Разработайте реалистичный рабочий план для разработки нового переводчика для данной языковой пары в системе Apertium, принимая во внимание: |
|||
* Define a realistic work/time-plan for making a new translator for a given language pair with Apertium taking into account: |
|||
** Существующие ресурсы |
|||
** Existing resources |
|||
** Цель перевода |
|||
** What the translator will be used for |
|||
** Человеческие ресурсы |
|||
** Man power |
|||
** Политическую финансовую и общественную поддержку |
|||
** Political, financial and community support |
|||
[[Category:Машинный перевод для языков России|Session 8]] |
[[Category:Машинный перевод для языков России|Session 8]] |
Latest revision as of 12:00, 31 January 2012
Основная задача данного раздела показать, что создание новой системы перевода с системой Apertium не обязательно должно стоить несколько миллионов евро и занимать несколько лет. Значительное количество систем Apertium была разработана несколькими людьми всего за несколько месяцев за счет использования существующих ресурсов, и подвижного движка системы.
Хотя наличие денег и времени часто является предпосылкой для создания лучшей системы машинного перевода, многое можно сделать имея реалистичные ожидания, детальное планирование и эффективно используя вклад добровольцев-разработчиков.
Примеры из практики[edit]
Следующие примеры показывают 4 успешных, но отличных путей создания систем машинного перевода
Испанский и каталонский[edit]
- Долгосрочное государственное финансирование, несколько разработчиков. На каталонском говорят около девяти миллионов человек.
Машинный переводчик с испанского на каталонский является старейшим переводчиком в Apertium. Он был переписан и расширен на основе переводчика interNOSTRUM
, разработанного в Университете д'Алакант. В общей сложности, он создавался в течение 12 лет. Начальная версия interNOSTRUM
была выпущена в начале 2000 года и заняла около 72 человеко-месяцев (четыре человека, 18 месяцев), которые создали движок и лингвистические данные. Он широко использовался, насчитывая около тысячи запросов в день.
В 2004 году Apertium, при финансовой поддержке Министерства науки, промышленности и торговли Испании, запустил проект по переписки кода для общего доступа, а также по преобразованию лингвистических данных. После одного человеко-года, была выпущена первая версия испано-каталонского переводчика.
Переводчик очень высокого качества, выдерживает сравнение с коммерческими проектами - более 95% охвата словаря (около 5 неизвестных слов из 100), и процент ошибочных слов между 3-7% (из 100 слов около 3 - 7 нужно заменить для получения адекватного перевода). Это второй по популярности переводчик на сайте Apertium, и основной машинный переводчик для ряда университетов в Испании при работе с этой языковой парой.
Новонорвежский язык (нюнорск, Nynorsk) и норвежский бокмал (Bokmål)[edit]
- Краткосрочное финансирование на конкурсной основе, один разработчик. Нюнорск - считается предпочитаемым литературным языком для 580,000 норвежцев.
Переводчик с языка Нюнорск на Бокмал - самый популярный на нашем сайте. Его начали разрабатывать в 2008 году Фрэнсис Таерз и Трун Тростерюд, используя имеющиеся данные, такие как Norsk Ordbank (большой список полных слов на языках нюнорск и бокмал) и маркировщик слов Осло-Берген (грамматика ограничений, основанная на инструменте разрешения неоднозначности для обоих видов норвежского языка).
Начальная версия не была завершена, но проект был подхвачен в 2009 году Кевином Унхаммером, студентом компьютерной лингвистики Университета Бергена во время летней программы компании Google по отбору проектов с открытым кодом. В течение трех месяцев Кевин полностью переделал преобразование обоих списков Ordbank, грамматику ограничений и написал серию правила переноса.
Он потратил 2 недели на преобразование списков Ordbank в формат Apertium, затем еще неделю на преобразование маркировщика Осло-Берген. Три недели на правила переноса, а потом еще три недели на расширение словарей. Затем две недели были потрачены на тестирование работы задач, например, на тестирование чтобы только слова из всех трех словарей были включены. И последняя неделя была посвящена оценке.
Итоговый охват системы составляет около 90%, т.е. на основе корпуса около 10 неизвестных слов из 100 слов в среднем. Ошибочные слова - около 17%, что означает, что из 100 слов 17 должны быть изменены для получения адекватного перевода. Эта система выдерживает конкуренцию с другими имеющимися системами для перевода пары нюнорск-бокмал (Nynorsk-Bokmål). Сегодня на систему приходится более трети всех переводов на сайте Apertium.
Бретонский и французский[edit]
- Среднесрочный волонтерский проект при очень коротком государственном и частном финансировании, несколько разработчиков. На бретонском говорят около 200,000 людей.
Работа над бретон-французским переводчиком была начата в 2008 году Фрэнсисом Таерзом в его свободное время. После трех месяцев, систем подтверждения концепции, используя правила переноса из пары французский - испанский была представлена в Офис бретонского языка в декабре. Было решено найти финансирование, чтобы в течение месяца доработать прототип системы, которая была бы полезна для определенных целей.
В конце концов, финансирование поездки носителя бретонского языка в Алакант была организована Офисом бретонского языка, а университет Далакант оплатил месячную зарплату бретонского носителя и компания инженерной лингвистики Промпзит оплатила работу Фрэнсиса Таерза. Еще на два месяца. В общей сложности стоимость проекта составила около € 3000. Первая версия переводчика был выпущена в мае 2009 года.
Первая версия имела охват около 85%, высокий процент ошибочных слов, что все же позволяло переводчику быть полезным для определенных целейи. Сегодня система Доступна на главной странице Офис ар Brezhoneg, и обновляется сотрудниками Офис, в том числе его директором, Фулупом Якезом.
Испанский и арагонский[edit]
- Среднесрочный волонтерский проект без государственного финансирования, два разработчика. На арагонском говорит около 10,000 человек.
Работа над испанско-арагонским переводчиком была начата разработчиком Apertium Джимом O'Реганом, по просьбе носителя арагонского языка Хуан Пабло Мартинеса. Три недели усилий, растянутых в течение года, и последняя интенсивная неделя работы привели к выпуску первой версии прототипа, переводчика только с арагонского на испанский язык.
Первая двунаправленная версия переводчика была завершена Хуаном Пабло после еще 6 недель работы, растянутых на год. Единственными доступными ресурсами в начале этой работы на арагонском языке были арагонская версия Википедии и несколько шаблонов глаголов в английском издании Викисловаря. Арагонско-испанский словарь был создан с нуля, но морфологический анализатор испанского языка и маркировщик частей речи были взяты из испанско-каталонской пары. Создание системы никак не финансировалось.
Вспомогательные факторы[edit]
Существующие ресурсы[edit]
Когда языковые ресурсы, такие как корпуса, словари, грамматики, морфологические анализаторы, списки лемм и т.д. находятся в свободном доступе / с лицензией на возможность свободного использования, они могут быть использованы повторно и сократить время разработки. Тем не менее, количество времени, необходимого для переформатирования не следует недооценивать.
Морфологический преобразователь, предназначенный для проверки орфографии, может быть очень хорошим для проверки орфографии, но его может быть не так-то легко адаптировать для анализа / генерации в системе машинного перевода. Для разных целей разные требования и это должно быть учтено при принятии решения повторного использования существующих ресурсов: стоит ли адаптировать имеющийся ресурс или создать его с нуля.
Цели[edit]
При запуске проекта, важно ответить для себя на следующие вопросы и обозначить цели, например,
- Кто является целевой аудиторией?
- Система будет предназначена для пользования профессиональными переводчиками, переводчиками-любителями или просто обывателями ?
- Для чего будет использоваться система?
- Цель: получить общее представление о чем текст
- Применение: получить примерный перевод
- Область: будет ли система использоваться для перевода новостей, энциклопедической информации, юридических текстов, погоды и т.д.?
- Какие существующие языковые ресурсы могут быть повторно использованы?
- Существуют ли хорошие бесплатные словари?
- Сколько у нас есть времени для построения системы?
- возможно 6 месяцев недостаточно чтобы создать идеальную многоцелевую систему машинного перевода дл всех языковых пар средней Волги....,
- ... но этого будет достаточно чтобы разработать прототип системы для перевода прогноза погоды.
- возможно 6 месяцев недостаточно чтобы создать идеальную многоцелевую систему машинного перевода дл всех языковых пар средней Волги....,
Если система будет предназначаться для перевода текстов с государственной информацией для ознакомления, она обязательно будет иметь характеристики, отличные от системы для перевода статей в Википедии.
Например, создание системы с высоким объем словаря, открытой системой для усвоения и распространения данных может быть хорошей идеей, но практически это невозможно при ограниченных ресурсах.
Время[edit]
Количество времени, необходимого для создания новой языковой пары на платформе Apertium во многом зависит от целей проекта, существующих ресурсов и опыта разработчиков. Прототип или образец системы могут быть созданы в период от 10 дней до 3 месяцев. В то время как полноценная работающая система может занять от 3 месяцев (как в случае пары нюнорск-бокмал) до нескольких лет.
В следующей таблице приведены данные развития языковых пар в Apertium за последние шесть лет.
Год | Всего пар | Новые пары | Языковые пары |
---|---|---|---|
2005 | 3 | 3 | es-ca, es-gl, es-pt |
2006 | 6 | 3 | es-ca, es-gl, es-pt, en-ca, fr-ca, oc-ca |
2007 | 8 | 2 | es-ca, es-gl, es-pt, en-ca, fr-ca, oc-ca, es-ro, fr-es |
2008 | 18 | 10 | es-ca, es-gl, es-pt, en-ca, fr-ca, oc-ca, es-ro, fr-es, oc-es, en-gl, cy-en, eo-ca, eo-es, eu-es, pt-gl, eo-en, en-es, pt-ca |
2009 | 21 | 3 | es-ca, es-gl, es-pt, en-ca, fr-ca, oc-ca, es-ro, fr-es, oc-es, en-gl, cy-en, eo-ca, eo-es, eu-es, pt-gl, eo-en, en-es, pt-ca, nn-nb, sv-da, br-fr |
2010 | 23 | 2 | es-ca, es-gl, es-pt, en-ca, fr-ca, oc-ca, es-ro, fr-es, oc-es, en-gl, cy-en, eo-ca, eo-es, eu-es, pt-gl, eo-en, en-es, pt-ca, nn-nb, sv-da, br-fr, es-ast, mk-bg |
2011 | 33 | 10 | es-ca, es-gl, es-pt, en-ca, fr-ca, oc-ca, es-ro, fr-es, oc-es, en-gl, cy-en, eo-ca, eo-es, eu-es, pt-gl, eo-en, en-es, pt-ca, nn-nb, sv-da, br-fr, es-ast, mk-bg, is-en, ca-it, eo-fr, mk-en, es-an, eu-en, es-it, sh-mk, tr-az, tr-ky |
Финансирование[edit]
Как мы увидели из конкретных примеров, языковые пары в Apertium создавались и финансировались разными способами. В таблице приведены способы финансирования "стабильных" систем машинного перевода в Apertium. Самые популярные выделены жирным.
Спонсор | Вид | Языковая пара(ы) |
---|---|---|
Google Лето кода | Конкурс | mk-bg, nn-nb, sh-mk, sv-da, tr-az, tr-ky |
— | Волонтеры | eo-fr, es-an, mk-en, ca-it, eo-en |
Generalitat de Catalunya | Местное правительство | oc-ca, oc-es, en-ca, |
— | Диссертация | cy-en, fr-ca, pt-ca |
Universitat d'Alacant | Образовательное учреждение | eu-es, (br-fr), es-pt |
Министерство промышленности, торговли и туризма Испании | Правительство страны | es-ca, es-gl |
ABC Enciklopedioj | Организация | eo-es, eo-ca |
imaxin|software | Организация | en-gl, pt-gl |
Universidá d'Uviéu | Образовательное учреждение | es-ast |
Prompsit | Организация | es-it, (br-fr), (fr-es) |
Eleka Ingenieritza Linguistikoa | Организация | fr-es |
Исследовательский совет Исландии | Правительство страны | is-en |
Ofis ar Brezhoneg | Полуобщественная организация | br-fr |
Европейская ассоциация машинного перевода | Некоммерческая организация | eu-en |
Практика[edit]
- Найдите существующие языковые ресурсы для вашей языковой пары и отметьте, какими документами они регламентируются.
- Разработайте реалистичный рабочий план для разработки нового переводчика для данной языковой пары в системе Apertium, принимая во внимание:
- Существующие ресурсы
- Цель перевода
- Человеческие ресурсы
- Политическую финансовую и общественную поддержку