Difference between revisions of "Курсы машинного перевода для языков России"

From Apertium
Jump to navigation Jump to search
 
(43 intermediate revisions by 6 users not shown)
Line 1: Line 1:
  +
<center>
<center><span style="font-size: x-large">Курс машинного перевода для языков России</span>
 
  +
<span style="font-size: large">Курсы-консультации по совместной разработке научно-прикладных проектов в области машинного перевода</span>
   
Шупашкар, Чӑваш Респубики (Чебоксары, Чувашская Республика)
+
Шупашкар, Чӑваш Республики (Чебоксары, Чувашская Республика)
   
  +
[http://www.chuvsu.ru/~ui/, Университетский Центр Интернет Чувашского государственного университета]<br/>
[http://www.chuvsu.ru/~chfik/ Факультет чувашской филологии и культуры, Чувашский государственный университет]
 
  +
[http://www.cheboksary.ws/#xy=56.1417985127387,47.229602391334545&z=16&t=coordinate Московский проспект 15, корпус Ж, 2 этаж]
   
 
с 23 по 27 января 2012 г.
 
с 23 по 27 января 2012 г.
Line 11: Line 13:
 
===Цель===
 
===Цель===
   
Цель курса дать практическое знание, как создать автоматический переводчик с помощью открытой платформы свободного машинного перевода Apertium и связанных с ней программ. На ней создано около 40 автоматических переводчиков, ещё многие находятся в процессе создания. Речь, прежде всего, идёт об автоматических переводчиках между родственными языками, например, славянский со славянским (напр., с македонского на болгарский язык), романский с романским, германский с германским, и тюркский с тюркским. Стоит отметить, что сотрудники Apertium проявляют большой интерес к региональным языкам и активно поддерживают те языки, ресурсы которых малы, такие как баскский, бретонский, осетинский, чеченский, марийский, коми, чувашский, саха, казахский и киргизский.
+
Цель курсов &mdash; дать практические знания по созданию автоматического переводчика с помощью открытой платформы свободного машинного перевода Apertium и связанных с ней программ. На данной платформе создано около 40 автоматических переводчиков и ещё многие находятся в процессе создания. Речь, прежде всего, идёт об автоматических переводчиках между родственными языками, например, внутри славянских языков (напр., с македонского на болгарский язык), с романского на романский, с германского на германский и с тюркского на тюркский. Стоит отметить, что команда Apertium проявляет большой интерес к региональным языкам и активно поддерживает те языки, ресурсы которых малы, такие как баскский, бретонский, осетинский, чеченский, марийский, коми, чувашский, саха, казахский и киргизский.
   
Специальность по информатике или лингвистике не является необходимой. Достаточно быть пользователем компьютера, хорошо владеть основой грамматики, владеть более, чем одним языком, и интересоваться машинным переводом.
+
Специальные знания по информатике или лингвистике не являются необходимыми. Достаточно быть пользователем компьютера, хорошо владеть основами грамматики, владеть более чем одним языком и интересоваться машинным переводом.
   
 
Участники получат знания, которые позволят им участвовать в конкурсах на получение грантов по созданию новых автоматических переводчиков, например [http://code.google.com/intl/ca/soc/ Google Summer of Code].
 
Участники получат знания, которые позволят им участвовать в конкурсах на получение грантов по созданию новых автоматических переводчиков, например [http://code.google.com/intl/ca/soc/ Google Summer of Code].
   
 
===Программа===
 
===Программа===
  +
:''См. также: [[Машинный перевод для языков России/Программа|Программа]]''
 
Курс состоят из 40 часов, по 8 часов на протяжении 5 дней. Программа, прежде всего, включает практику. По возможности, рекомендуется использование собственного ноутбука (с Линуксом) .
+
Курсы состоят из 40 часов, по 8 часов на протяжении 5 дней. Программа, прежде всего, включает практику.
   
 
<center>
 
<center>
Line 26: Line 28:
 
! День !! Время !! Тема
 
! День !! Время !! Тема
 
|-
 
|-
| Понедельник 23 января || Первая половина дня || Обзор
+
|rowspan=2 align="center"|Понедельник<br/>(23 января) || 09:00 &mdash; 13:00 || Обзор
 
|-
 
|-
| Понедельник 23 января || Вторая половина дня || Основы словарей
+
| 14:00 &mdash; 18:00 || Основы словарей
 
|-
 
|-
| Вторник 24 января || Первая половина дня || Расширенные словари
+
|rowspan=2 align="center"|Вторник<br/>(24 января) || 09:00 &mdash; 13:00 || Расширенные словари
 
|-
 
|-
| Вторник 24 января || Вторая половина дня || '''Морфологические неоднозначности'''
+
| 14:00 &mdash; 18:00 || Разрешение морфологической неоднозначности
 
|-
 
|-
| Среда 25 января || Первая половина дня || Лексическая передача
+
|rowspan=2 align="center"|Среда<br/>(25 января) || 09:00 &mdash; 13:00 || Лексическая передача
 
|-
 
|-
| Среда 25 января || Вторая половина дня || Структурная передача
+
| 14:00 &mdash; 18:00 || Структурная передача
 
|-
 
|-
| Четверг 26 января || Первая половина дня || Продвинутая структурная передача
+
|rowspan=2 align="center"|Четверг<br/>(26 января) || 09:00 &mdash; 13:00 || Противопоставления уральских языков<br/>Противопоставления тюркских языков<br/>Продвинутая структурная передача I
 
|-
 
|-
  +
| 14:00 &mdash; 18:00 || Продвинутая структурная передача II
| Четверг 26 января || Вторая половина дня || Последовательность данных, качество и оценка
 
 
|-
 
|-
| Пятница 27 января || Первая половина дня || Планирование проекта по созданию переводчика
+
|rowspan=2 align="center"|Пятница<br/>(27 января) || 09:00 &mdash; 13:00 || Последовательность данных, качество и оценка
 
|-
 
|-
| Пятница 27 января || Вторая половина дня || Практические вопросы и ответы
+
| 14:00 &mdash; 18:00 || Планирование проекта и практические вопросы и ответы
 
|}
 
|}
 
</center>
 
</center>
Line 50: Line 52:
 
===Преподаватели===
 
===Преподаватели===
   
  +
* '''Трун Тростерюд''' -- доцент языкознания в университете Тромсё. Он лингвист (университет Тронхейма, 1989 г.) и кандидат филологических наук (университет Тромсё, 2004 г., диссертация об определенных аспектах морфологической структуры уральских языков). С 1999 он работал над лингвистической технологией с вниманием на конечные машины для саамских языков и других уральских языков. Он также работал над автоматическим синтаксическим анализом и над основанным на правилах машинным переводом.
* '''Францис Мортон Таерз''' -- аспирант, учащийся на факулете компьютерных наук Университета Алаканта (Испания). He received a Bachelor's degree in Software Engineering from the University of Wales, Aberystwyth and a Master's degree in Linguistics from the University of East Anglia. He also works as a language engineer for Prompsit Language Engineering. He was elected member of the Project Management Committee of Apertium, and nominated secretary. He is also involved in other groups related to language technology for minority and regional languages, such as the Special Interest Group in Speech and Language Technology for Minority Languages (SALTMIL). He has reviewed for a number of international workshops and conferences and has publications in the field of machine translation in a number of conference proceedings and international journals. In machine translation his interests are: marginalised, minority, regional, under-resourced or lesser-used languages; closely-related languages; morphosyntactic analysis and disambiguation; rule-based approaches; lexical selection.
 
   
  +
* '''Францис Мортон Таерз''' -- аспирант факультета компьютерных наук университета Алаканта (Испания). Имеет степень бакалавра по программированию Уэльского университета, Аберистуита и степень магистра лингвистики университета Восточной Англии. Работает в качестве инженера по лингвистическому проектированию в области лингвистических технологий компании Промпсит (Prompsit). Был избран членом Комитета по реализации проектов компании Апертиум (Apertium) и назначен секретарем. Является активным членом нескольких групп, работающих в области лингвистического проектирования для развития миноритарных и региональных языков. В частности, это Специальная группа по развитию речевых и лингвистических технологий для миноритарных языков (SALTMIL). Принимал участие во многих международных семинарах и конференциях и имеет ряд опубликованных статей по теме машинного перевода в сборниках, вышедших по итогам конференций, и в международных журналах. В области машинного перевода его профессиональный интерес составляют маргинализованныe, миноритарные, региональные и малоиспользуемые языки; родственные языки; морфо-синтаксический анализ и снятие омонимии; типы машинного перевода, основанные на использовании правил; лексическая выборка.
* '''Джонатан Норт Вашингтон''' -- аспирант лингвистического факультета Университета Индианы (США). Он получил степень бакалавра и по лингвистике и по антропологии Брандайсского Университета в Волтаме, Массачусетс, в 2005-м году, и в 2010-м году стал магистром лингвистического факультета Университета Вашингтона в Сиэтле. Его исследовательские интересы включают фонологическую теорию, фонетику, сравнительно-историческое языкознание, тюркские языки (особенно казахский и кыргызский), и особенно их пересечение. Сейчас он работает с данными натурных исследований, собранными в течение 2008-ого года в Кыргызстане по гранту Фулбрайт.
 
   
 
* '''Джонатан Норт Вашингтон''' -- аспирант лингвистического факультета Университета Индианы (США). В 2005 г. получил степень бакалавра по лингвистике и по антропологии Брандайсского Университета в Волтаме, Массачусетс, а в 2010-м году стал магистром лингвистического факультета Университета Вашингтона в Сиэтле. Его исследовательские интересы включают фонологическую теорию, фонетику, сравнительно-историческое языкознание, тюркские языки (в большей степени казахский и кыргызский) и особенно их пересечение. В данное время работает с данными натурных исследований, собранными в течение 2008-ого года в Кыргызстане по гранту Фулбрайт.
* '''Трун Тростеруд''' (?)
 
   
 
===Участие===
 
===Участие===
Line 61: Line 63:
 
* Количество участников ограничено (20 человек)
 
* Количество участников ограничено (20 человек)
 
* Необходимо записаться до 15 января
 
* Необходимо записаться до 15 января
* Участники, посетившие 90% часов курса (72 из 80 часов) и сдавшие практические задания, получат сертификат.
+
* Участники, посетившие 90% часов курсов (72 из 80 часов) и сдавшие практические задания, получат сертификат.
   
 
===Языки===
 
===Языки===
   
Основными языками курса будут английский и русский. Проводится перевод с английского на русский язык.
+
Основными языками курсов будут английский и русский. Будет проводиться перевод с английского на русский язык.
   
Документы курса будут на русском языке.
+
Документы курсов будут на русском языке.
   
 
===Проживание===
 
===Проживание===
Line 73: Line 75:
 
Иногородние участники могут ночевать в [http://www.edu.cap.ru/?t=eduid&eduid=4953 Лицее-интернате им. Г.С. Лебедева]. Комнаты двухместные. Цена: 300 руб./ночь. Студенты могут получить скидку.
 
Иногородние участники могут ночевать в [http://www.edu.cap.ru/?t=eduid&eduid=4953 Лицее-интернате им. Г.С. Лебедева]. Комнаты двухместные. Цена: 300 руб./ночь. Студенты могут получить скидку.
   
===Запись===
+
=== Пресса ===
   
 
* [http://ru.chuvash.org/news/1045.html 29.12.2011. Курс машинного перевода для языков России]
'''Для участия необходимо записаться до 15 января.'''
 
  +
* [http://gov.cap.ru/list4/news/rec.aspx?gov_id=13&link=&preurl=.&FKey=F_JURL_ID&id=1327517 16.01.2012. Курсы машинного перевода в Чебоксарах. Автоматический переводчик на чувашский язык 18.01.2012. Куçаруçăсен курсĕ ĕçлеме пуçлать]
  +
* [http://chuvash.org/news/1916.html 18.01.2012. Куçаруçăсен курсĕ ĕçлеме пуçлать]
  +
* [http://finugor.ru/node/22706 26.01.2012. В Чебоксарах готовят разработчиков систем машинного перевода с уральских языков]
  +
* [http://www.chuvash.org/news/1945.html 29.01.2012. Раççĕй чĕлхисен машина куçарăвĕн курсĕ иртрĕ]
  +
* [http://www.chuvsu.ru/~chfik/?q=cv/node/809 30.01.2012. Раççей чĕлхисен машина куçарăвĕн курсĕ]
   
  +
===Запись===
[https://docs.google.com/spreadsheet/viewform?formkey=dDRMQlBjeHJfUEx3a3BhOGtZYjVxbFE6MQ Запишитесь!]
 
  +
 
'''Для участия необходимо записаться до 15 января.''' [https://docs.google.com/spreadsheet/viewform?formkey=dDRMQlBjeHJfUEx3a3BhOGtZYjVxbFE6MQ Запишитесь!]
   
 
__NOTOC__
 
__NOTOC__
  +
  +
  +
[[Category:Машинный перевод для языков России|*]]

Latest revision as of 00:28, 26 January 2013

Курсы-консультации по совместной разработке научно-прикладных проектов в области машинного перевода

Шупашкар, Чӑваш Республики (Чебоксары, Чувашская Республика)

Университетский Центр Интернет Чувашского государственного университета
Московский проспект 15, корпус Ж, 2 этаж

с 23 по 27 января 2012 г.

Цель[edit]

Цель курсов — дать практические знания по созданию автоматического переводчика с помощью открытой платформы свободного машинного перевода Apertium и связанных с ней программ. На данной платформе создано около 40 автоматических переводчиков и ещё многие находятся в процессе создания. Речь, прежде всего, идёт об автоматических переводчиках между родственными языками, например, внутри славянских языков (напр., с македонского на болгарский язык), с романского на романский, с германского на германский и с тюркского на тюркский. Стоит отметить, что команда Apertium проявляет большой интерес к региональным языкам и активно поддерживает те языки, ресурсы которых малы, такие как баскский, бретонский, осетинский, чеченский, марийский, коми, чувашский, саха, казахский и киргизский.

Специальные знания по информатике или лингвистике не являются необходимыми. Достаточно быть пользователем компьютера, хорошо владеть основами грамматики, владеть более чем одним языком и интересоваться машинным переводом.

Участники получат знания, которые позволят им участвовать в конкурсах на получение грантов по созданию новых автоматических переводчиков, например Google Summer of Code.

Программа[edit]

См. также: Программа

Курсы состоят из 40 часов, по 8 часов на протяжении 5 дней. Программа, прежде всего, включает практику.

День Время Тема
Понедельник
(23 января)
09:00 — 13:00 Обзор
14:00 — 18:00 Основы словарей
Вторник
(24 января)
09:00 — 13:00 Расширенные словари
14:00 — 18:00 Разрешение морфологической неоднозначности
Среда
(25 января)
09:00 — 13:00 Лексическая передача
14:00 — 18:00 Структурная передача
Четверг
(26 января)
09:00 — 13:00 Противопоставления уральских языков
Противопоставления тюркских языков
Продвинутая структурная передача I
14:00 — 18:00 Продвинутая структурная передача II
Пятница
(27 января)
09:00 — 13:00 Последовательность данных, качество и оценка
14:00 — 18:00 Планирование проекта и практические вопросы и ответы

Преподаватели[edit]

  • Трун Тростерюд -- доцент языкознания в университете Тромсё. Он лингвист (университет Тронхейма, 1989 г.) и кандидат филологических наук (университет Тромсё, 2004 г., диссертация об определенных аспектах морфологической структуры уральских языков). С 1999 он работал над лингвистической технологией с вниманием на конечные машины для саамских языков и других уральских языков. Он также работал над автоматическим синтаксическим анализом и над основанным на правилах машинным переводом.
  • Францис Мортон Таерз -- аспирант факультета компьютерных наук университета Алаканта (Испания). Имеет степень бакалавра по программированию Уэльского университета, Аберистуита и степень магистра лингвистики университета Восточной Англии. Работает в качестве инженера по лингвистическому проектированию в области лингвистических технологий компании Промпсит (Prompsit). Был избран членом Комитета по реализации проектов компании Апертиум (Apertium) и назначен секретарем. Является активным членом нескольких групп, работающих в области лингвистического проектирования для развития миноритарных и региональных языков. В частности, это Специальная группа по развитию речевых и лингвистических технологий для миноритарных языков (SALTMIL). Принимал участие во многих международных семинарах и конференциях и имеет ряд опубликованных статей по теме машинного перевода в сборниках, вышедших по итогам конференций, и в международных журналах. В области машинного перевода его профессиональный интерес составляют маргинализованныe, миноритарные, региональные и малоиспользуемые языки; родственные языки; морфо-синтаксический анализ и снятие омонимии; типы машинного перевода, основанные на использовании правил; лексическая выборка.
  • Джонатан Норт Вашингтон -- аспирант лингвистического факультета Университета Индианы (США). В 2005 г. получил степень бакалавра по лингвистике и по антропологии Брандайсского Университета в Волтаме, Массачусетс, а в 2010-м году стал магистром лингвистического факультета Университета Вашингтона в Сиэтле. Его исследовательские интересы включают фонологическую теорию, фонетику, сравнительно-историческое языкознание, тюркские языки (в большей степени казахский и кыргызский) и особенно их пересечение. В данное время работает с данными натурных исследований, собранными в течение 2008-ого года в Кыргызстане по гранту Фулбрайт.

Участие[edit]

  • Участие бесплатное
  • Количество участников ограничено (20 человек)
  • Необходимо записаться до 15 января
  • Участники, посетившие 90% часов курсов (72 из 80 часов) и сдавшие практические задания, получат сертификат.

Языки[edit]

Основными языками курсов будут английский и русский. Будет проводиться перевод с английского на русский язык.

Документы курсов будут на русском языке.

Проживание[edit]

Иногородние участники могут ночевать в Лицее-интернате им. Г.С. Лебедева. Комнаты двухместные. Цена: 300 руб./ночь. Студенты могут получить скидку.

Пресса[edit]

Запись[edit]

Для участия необходимо записаться до 15 января. Запишитесь!