Difference between revisions of "Курсы машинного перевода для языков России/Раздел 1"

From Apertium
Jump to navigation Jump to search
Line 64: Line 64:
 
Морфофонология изучает фонологические изменения, которые происходят с морфемами при присоединении. Морфофонология четко прослеживается в любом наборе морфем любого языка, но в данном разделе мы объясним этот процесс на примере суффикса множественного числа в татарском языке, -/LAr/.
 
Морфофонология изучает фонологические изменения, которые происходят с морфемами при присоединении. Морфофонология четко прослеживается в любом наборе морфем любого языка, но в данном разделе мы объясним этот процесс на примере суффикса множественного числа в татарском языке, -/LAr/.
   
Суффикс имеет четыре формы, выбор которых зависит от существительного, к которому он присоединяется: -лар, -ләр, -нар, -нәр. Например, алма·лар "яблоки", тел·ләр "языки", урам+нар "улицы", көн·нәр "дни". В данных примерах, первый согласный это /л/ или /н/ в зависимости от звука, на который заканчивается слово; /н/ если суффикс следует непосредственно после носового согласного (м, н, ң), a /л/ после других звуков. Гласный /A/ изменяется в зависимости от последней гласной слова: после гласных заднего ряда "back/твёрдые vowels" (а, о, ы, у) это /а/, а после гласных переднего ряда "front/мягкие vowels" (ә, э, ө, и, ү) это /ә/.
+
Суффикс имеет четыре формы, выбор которых зависит от существительного, к которому он присоединяется: -лар, -ләр, -нар, -нәр. Например, алма·лар "яблоки", тел·ләр "языки", урам+нар "улицы", көн·нәр "дни". В данных примерах, первый согласный это /л/ или /н/ в зависимости от звука, на который заканчивается слово; /н/ если суффикс следует непосредственно после носового согласного (м, н, ң), a /л/ после других звуков. Гласный /A/ изменяется в зависимости от последней гласной слова: после гласных заднего ряда "back/твёрдые гласные" (а, о, ы, у) это /а/, а после гласных переднего ряда "front/мягкие гласные" (ә, э, ө, и, ү) это /ә/.
   
===Компьютерные представления representations===
+
===Компьютерные репрезентации===
   
Компьютерные морфологические модели обычно пользуются инструментами под названием "конечные преобразователи" (finite-state transducers) для создания морфотактики и морфофонологии to model both morphotactics and morphophonology. Конечный преобразователь немного похож на схему ( flowchart), где в зависимости от части слова которую вы видите вы уже решаете какая у него флексия или деривация where depending on the part of the word you are reading, you make different decisions as to what inflection or derivation it has. В отличии от обыкновенной схемы, решение может привести к более чем одному заключению! Unlike the typical flowchart however, a decision may lead to more than one conclusion!
+
Компьютерные морфологические модели обычно пользуются инструментами под названием "конечные преобразователи" (finite-state transducers) для создания морфотактики и морфофонологии. Конечный преобразователь немного похож на схему, в которой в зависимости от части слова которую вы считываете вы уже решаете какая у него флексия или деривация. Но в отличии от обыкновенной схемы, решение может вести к множеству заключений!
   
[[Image:Bashkir lexc.png|800px|center|thumb|Конечный преобразователь, моделирующий основные категории морфотактики трех имен существительных на башкирском языке te transducer modelling the basic nominal morphotactics (множественное число, принадлежность, падеж) of three words in Bashkir. Заметьте, как используются архифонемы (буквы в <code>{</code> и <code>}</code>) для репрезентации букв, которые могут изменяться согласно правилам фонологии.]]
+
[[Image:Bashkir lexc.png|800px|center|thumb|Конечный преобразователь, моделирующий основные категории морфотактики трех имен существительных на башкирском языке (множественное число, принадлежность, падеж). Заметьте, как используются архифонемы (буквы в <code>{</code> и <code>}</code>) для репрезентации букв, которые могут изменяться согласно правилам фонологии.]]
   
Вышеупомянутый преобразователь, в расширенном виде сложен для полного ознакомления, но, если мы удалим категорию принадлежности, нам будет проще подробнее посмотреть как он работает. The above transducer, once expanded is too big to easily read through, but if we remove the possessives, we can take a closer look at how it works.
+
Вышеупомянутый преобразователь, в более расширенном виде сложен для полного ознакомления, но, если мы удалим категорию принадлежности, нам будет проще более детально посмотреть как он работает.
   
 
[[File:Bashkir mektep.png|800px|center|thumb|Конечный преобразователь, моделирующий падежное окончание и окончание множественного числа башкирского слова ''мәктәп'' "школа".]]
 
[[File:Bashkir mektep.png|800px|center|thumb|Конечный преобразователь, моделирующий падежное окончание и окончание множественного числа башкирского слова ''мәктәп'' "школа".]]
   
Из нашего примера башкирское слово ''мәктәп'' "школа" изменяется по числам (единственное, множественное) и падежам (именительный, родительный, дательный, винительный, местный и творительный). Если посмотреть на вышеуказанный преобразователь, каждая arc на графике graph имеет обозначение (пометку). Она состоит из двух частей, левая часть (слева от <code>:</code>) и правая(справа от <code>:</code>). При чтении слева направо мы можем провести анализ слова.
+
Из нашего примера башкирское слово ''мәктәп'' "школа" изменяется по числам (единственное, множественное) и падежам (именительный, родительный, дательный, винительный, местный и творительный). Если посмотреть на вышеуказанный преобразователь, каждая кривая на графике имеет обозначение (пометку). Она состоит из двух частей, левая часть (слева от <code>:</code>) и правая (справа от <code>:</code>). При чтении слева направо мы можем провести анализ слова.
   
 
<div style="float: right">
 
<div style="float: right">
Line 114: Line 114:
 
* read <code>н</code>, write <code>0</code> (input: <code>мәктәп0тәp0ҙән</code>, оutput: <code>мәктәп</code>{{tag|n}}{{tag|pl}}00{{tag|abl}}<code>000</code>)
 
* read <code>н</code>, write <code>0</code> (input: <code>мәктәп0тәp0ҙән</code>, оutput: <code>мәктәп</code>{{tag|n}}{{tag|pl}}00{{tag|abl}}<code>000</code>)
   
Заметьте, что читать или писать 0 значит ничего не читать и не записывать.
+
Заметьте, что чтение и написание 0 означает ничего не читать и не записывать.
   
 
==Практическая часть==
 
==Практическая часть==
Line 123: Line 123:
 
* [[Как использовать lttoolbox, чтобы разработать новый морфологический анализатор]]
 
* [[Как использовать lttoolbox, чтобы разработать новый морфологический анализатор]]
   
==Еще для чтения==
+
==Для дальнейшего чтения==
   
* Kenneth R. Beesley and Lauri Karttunen (2003) ''Finite-State Morphology'' (CSLI Publications)
+
* Kenneth R. Beesley and Lauri Karttunen (2003) ''Конечная морфология / Finite-State Morphology'' (CSLI Publications)
* Richard Sproat (1992) ''Morphology and Computation'' (MIT Press)
+
* Richard Sproat (1992) ''Морфология и Компьютерные вычисления / Morphology and Computation'' (MIT Press)
 
* Francis M. Tyers (2007) "[[Руководство по созданию новой языковой пары]]" (Apertium Wiki)
 
* Francis M. Tyers (2007) "[[Руководство по созданию новой языковой пары]]" (Apertium Wiki)
   

Revision as of 06:17, 17 January 2012

Данный раздел имеет две цели. Первая цель - дать теоретические представления о морфологии, как слова склоняются и как формируются новые слова. И вторая цель - показать, как происходит анализ и морфологический разбор в системе Apertium.

Tеория

Данный теоретический раздел разбит на три подраздела. В первом разделе речь пойдет о "морфотактике", т.е.как морфемы (части слова) возникают и затем соединяются. Во втором разделе более подробно будет говориться о "морфофонологии", т.е. о том, какие изменения происходят в морфемах в результате их соединения. И в последнем подразделе мы расскажем о том, как с этими процессами работает компьютер.

Морфотактика

Морфотактика языка - это способ, которым морфемы в данном языке соединяются для формирования слов. Морфемы - наименьшие смыслообразующие части. Морфемы могут быть свободными или связанными. Свободные морфемы - это морфемы, которые могут встречаться сами по себе, а связанные - которые должны быть связаны с другим словом. Одна морфема может иметь несколько алломорфов, которые обозначают одно и то же, но пишутся или произносятся по-разному. Например, дательные падеж (обозначает направление по отношению к предмету)в Чувашском языке имеет несколько алломорфов, употребление которых зависит от качества гласного в основе слова, после которой он употребляется.

aчама ача·м·а "к моему ребенку"
ачамсене ача·м·сен·е "к моим детям"
ӗҫӗме ӗҫ·ӗм·е "к моей работе"
каҫмана каҫма·на "переходу"

Дальше морфемы могут быть разделены на два подтипа, флективные и деривационные. В примерах, знак · указывает на деривационный стык, а » - на флективный стык.

ӗҫ ӗҫ "работ·а"
ӗҫсем ӗҫ·сем "работ·ы"
ĕçчен ĕç»чен "работ»ник"
ĕçченсем ĕç»чен·сем "работ»ник·и"
ӗҫле ӗҫ»ле "работа»ть"
ӗҫле ӗҫ»ле»тер "заставить (кого-то) работать"

Флексия изменение формы слова)

Флективные морфемы являются носителями грамматических категорий, таких как число, падеж, время, и тд.,но не не изменяют категорию слова (часть речи), не изменяют основного семантического значения. Например в чувашском языке ӗҫ и ӗҫсем имеют одно и тоже основное семантическое значение, но если добавить деривационный аффикс -лЕ, ӗҫле, тогда значение изменится и станет "делать ӗҫ".

Примерами флективных морфем являются -lar, -сем и множественное число (kitap·lar (tr), ача·сем (cv), книг·и (ru)), и окончания падежей -ран (аблятив), -ті (транслатив), и -де (местный падеж): уй·ран (cv), кань·ті (kv), үй·де (kk))

При переводе часто именно форма слова подвергается изменениям, то есть, существуют правила, которые определяют как различные окончания слова изменяются при переводе.


Деривация

Деривационные морфемы в свою очередь изменяют основное семантическое значение слова, а также могут изменять категорию слова. В зависимости от языковой пары, деривационные морфемы обычно подвергаются меньшим изменениям, чем флективные, так как семантические изменения, вызываемые разными деривационными морфемами, более непредсказуемы.

Следующие слова могут служить примерами деривации -LIK в Киргиз (ай "месяц" + LIK = айлык "месячная оплата"), -LA in Kyrgyz (ай "месяц" + LA = айла- "пройти месяц"), и -ja на финском (kirjoitta+ja "писать" + "действующее лицо" = "писатель").

Словосложение

Словосложение - это процесс, при котором два или более слов соединяются и образуют одно слово. Среди языков Европы, наиболее часто этот процесс заметен в германских языках и не индоевропейских языках.

Примеры словосложений:

  • Tietokoneanimaatioelokuva = Tietokone+animaatio+elo+kuva (fi)
  • Kontaktlinsenverträglichkeitstest = Kontakt+Linsen+Verträglichkeit(s)+Test (de)
  • Еlmegyógyintézet = Elme+gyógy+intézet (hu)
  • Giellamovttidanplána = Giella+movttidan+plána (se)

В языках, где словосложение очень развито, желательно, чтобы составные слова анализировались и автоматически переводились. Это позволяет сократить морфемный лексикон, а также работать с ранее не встречающимися формами.

Клитика

Клитика (а clitic) - это синтаксически независимое слово, которое фонологически ведет себя как аффикс другого слова. Для целей машинного перевода между письменными языками, нас особенно интересует аффиксы, которые пишутся орфографически либо вместе с другим словом, либо отдельно, но их форма обусловлена другим словом.

В тюркских языках (в некоторых угорских языках) есть вопросительное слово (иногда его называют частица), в турецком mA, Kyrgyz -BI, казахском MA, финском -kO, северо-саамском North Sámi -go. Примеры: келесің бе? (kk) келесиңби? (ky) tuletko? (fi) boađátgo? (se) "ты идешь?". Данная фонема является клитикой (a clitic) потому что ее фонологическая форма зависит от предыдущего слова, но синтаксически (а иногда орфографически) она самостоятельна.

В таджикском языке, есть вариант слова для союза "и" который, синтаксический ведет себя как союз, присоединяется к предыдущему слова, каким бы оно не было. Он может иметь форму (после согласных) и -ву (после гласных). Альтернативным примером выражения чой ва шароб "чай и вино ": будет чою шароб.

Морфофонология

Морфофонология изучает фонологические изменения, которые происходят с морфемами при присоединении. Морфофонология четко прослеживается в любом наборе морфем любого языка, но в данном разделе мы объясним этот процесс на примере суффикса множественного числа в татарском языке, -/LAr/.

Суффикс имеет четыре формы, выбор которых зависит от существительного, к которому он присоединяется: -лар, -ләр, -нар, -нәр. Например, алма·лар "яблоки", тел·ләр "языки", урам+нар "улицы", көн·нәр "дни". В данных примерах, первый согласный это /л/ или /н/ в зависимости от звука, на который заканчивается слово; /н/ если суффикс следует непосредственно после носового согласного (м, н, ң), a /л/ после других звуков. Гласный /A/ изменяется в зависимости от последней гласной слова: после гласных заднего ряда "back/твёрдые гласные" (а, о, ы, у) это /а/, а после гласных переднего ряда "front/мягкие гласные" (ә, э, ө, и, ү) это /ә/.

Компьютерные репрезентации

Компьютерные морфологические модели обычно пользуются инструментами под названием "конечные преобразователи" (finite-state transducers) для создания морфотактики и морфофонологии. Конечный преобразователь немного похож на схему, в которой в зависимости от части слова которую вы считываете вы уже решаете какая у него флексия или деривация. Но в отличии от обыкновенной схемы, решение может вести к множеству заключений!

Конечный преобразователь, моделирующий основные категории морфотактики трех имен существительных на башкирском языке (множественное число, принадлежность, падеж). Заметьте, как используются архифонемы (буквы в { и }) для репрезентации букв, которые могут изменяться согласно правилам фонологии.

Вышеупомянутый преобразователь, в более расширенном виде сложен для полного ознакомления, но, если мы удалим категорию принадлежности, нам будет проще более детально посмотреть как он работает.

Конечный преобразователь, моделирующий падежное окончание и окончание множественного числа башкирского слова мәктәп "школа".

Из нашего примера башкирское слово мәктәп "школа" изменяется по числам (единственное, множественное) и падежам (именительный, родительный, дательный, винительный, местный и творительный). Если посмотреть на вышеуказанный преобразователь, каждая кривая на графике имеет обозначение (пометку). Она состоит из двух частей, левая часть (слева от :) и правая (справа от :). При чтении слева направо мы можем провести анализ слова.

Ед.число Множественное
Именительный мәктәп мәктәптәр
Винительный мәктәпте мәктәптәрҙе
Родительный мәктәптең мәктәптәрҙең
Местный мәктәптә мәктәптәрҙә
Творительный мәктәптән мәктәптәрҙән
Дательный мәктәпкә мәктәптәргә

Вы можете попробовать проделать такую же работу со словом из таблицы склонений справа. Например, мәктәптәрҙән "из школ". Нам следует получить следующий анализ мәктәп<n><pl><abl>. Процесс выглядит примерно следующим образом:

  • read м, write м (input: м, оutput: м)
  • read ә, write ә (input: мә, оutput: мә)
  • read к, write к (input: мәк, оutput: мәк)
  • read т, write т (input: мәкт, оutput: мәкт)
  • read ә, write ә (input: мәктә, оutput: мәктә)
  • read п, write п (input: мәктәп, оutput: мәктәп)
  • read 0, write <n> (input: мәктәп0, оutput: мәктәп<n>)
  • read т, write <pl> (input: мәктәп0т, оutput: мәктәп<n><pl>)
  • read ә, write 0 (input: мәктәп0тә, оutput: мәктәп<n><pl>0)
  • read p, write 0 (input: мәктәп0тәp, оutput: мәктәп<n><pl>00)
  • read 0, write <abl> (input: мәктәп0тәp0, оutput: мәктәп<n><pl>00<abl>)
  • read ҙ, write 0 (input: мәктәп0тәp0ҙ, оutput: мәктәп<n><pl>00<abl>0)
  • read ә, write 0 (input: мәктәп0тәp0ҙә, оutput: мәктәп<n><pl>00<abl>00)
  • read н, write 0 (input: мәктәп0тәp0ҙән, оutput: мәктәп<n><pl>00<abl>000)

Заметьте, что чтение и написание 0 означает ничего не читать и не записывать.

Практическая часть

Для практической части есть два раздаточных материала,

Для дальнейшего чтения