Difference between revisions of "Курсы машинного перевода для языков России/Раздел 1"

From Apertium
Jump to navigation Jump to search
(Created page with '{{TOCD}} This session has two objectives, the first is to give an overview of the theory of morphology, how words are inflected and how new words are formed. And the second is to…')
 
 
(33 intermediate revisions by 4 users not shown)
Line 1: Line 1:
 
{{TOCD}}
 
{{TOCD}}
  +
Данный раздел имеет две цели. Первая цель - дать теоретические представления о морфологии, как слова склоняются и как формируются новые слова. И вторая цель - показать, как происходит анализ и морфологический разбор в системе Apertium.
This session has two objectives, the first is to give an overview of the theory of morphology, how words are inflected and how new words are formed. And the second is to demonstrate how the analysis and generation of morphology is dealt with in Apertium.
 
   
==Theory==
+
==Tеория==
   
  +
Данный теоретический раздел разбит на три подраздела. В первом подразделе речь пойдет о "морфотактике", т.е.как морфемы (части слова) возникают и затем соединяются. Во втором подразделе более подробно будет говориться о "морфонологии", т.е. о том, какие изменения происходят в морфемах в результате их соединения. И в последнем подразделе мы расскажем о том, как с этими процессами работает компьютер.
The theory section is split into three subsections: The first deals with ''morphotactics'', that is how morphemes (parts of words) occur and are joined together. The second gives some details of ''morphophonology'', or how changes in morphemes happen as a result of them being joined together. The final section covers a theoretical description of how this is treated with computers.
 
   
  +
===Морфотактика===
===Morphotactics===
 
   
  +
Морфотактика языка - это способ, которым морфемы в данном языке соединяются для формирования слов. Морфемы - наименьшие смыслообразующие части. Морфемы могут быть свободными или связанными. Свободные морфемы - это морфемы, которые могут встречаться сами по себе (например, '''''как''''', '''''один''''', '''''компьютер'''''), а связанные - которые должны быть связаны с другим словом (например, '''''-ность''''' (→ ''способность'', ''влажность'', ''личность'') '''''мо-''''' (→ ''мой'', ''моя'', ''моей'', и т.д.), '''''-ей''''' (→ ''моей'', ''семьей'', ''словарей'', и т.д.)). Одна морфема может иметь несколько алломорфов, которые обозначают одно и то же, но пишутся или произносятся по-разному. Например, дательные падеж (обозначает направление по отношению к предмету) в Чувашском языке имеет несколько алломорфов, употребление которых зависит от качества гласного в основе слова, после которой он употребляется.
The morphotactics of a language is the way that morphemes in that language are joined together to form words. Morphemes are the smallest units of meaning. Morphemes can be free, or bound. They are free if they can occur on their own, and bound if they must be connected to another word. A single morpheme may have several allomorphs which mean the same thing but are written or spoken differently. For example the dative case (used to indicate movement in the direction of) in Chuvash has several allomorphs, which change depending on the vowel quality of the stem to which it attaches.
 
   
  +
{|class="wikitable"
:''aчама'' ача·м·'''а''' "to my child"
 
  +
|-
:''ачамсене'' ача·м·сен·'''е''' "to my children"
 
:''ӗҫӗме'' ӗҫ·ӗм·'''е''' "to my work"
+
|''aчама'' || ача·м·'''а''' || "к моему ребенку"
  +
|-
:''каҫмана'' каҫма·'''на''' "переходу"
 
 
|''ачамсене'' || ача·м·сен·'''е''' || "к моим детям"
  +
|-
  +
|''ӗҫӗме'' || ӗҫ·ӗм·'''е''' || "к моей работе"
  +
|-
 
|''каҫмана'' || каҫма·'''на''' || "переходу"
  +
|}
   
  +
Дальше морфемы могут быть разделены на два подтипа, флективные и деривационные. В примерах, знак · указывает на деривационный стык, а » - на флективный стык.
Morphemes can be further split into two subtypes, inflectional and derivational. In the examples, · signifies a derivational boundary, and » signifies an inflectional boundary.
 
   
  +
{|class="wikitable"
:''ӗҫ'' ӗҫ "работ·а"
 
  +
|-
:''ӗҫсем'' ӗҫ·'''сем''' "работ·ы"
 
:''ĕçчен'' ĕç»'''чен''' "работ»ник"
+
|''ӗҫ'' || ӗҫ || "работ·а"
  +
|-
:''ĕçченсем'' ĕç»'''чен'''·'''сем''' "работ»ник·и"
 
:''ӗҫле'' ӗҫ»'''ле''' "работа»ть"
+
|''ӗҫсем'' || ӗҫ·'''сем''' || "работ·ы"
  +
|-
:''ӗҫле'' ӗҫ»'''ле'''»'''тер''' "to make (someone) work"
 
  +
|''ĕçчен'' || ĕç»'''чен''' || "работ»ник"
 
  +
|-
====Inflection====
 
 
|''ĕçченсем'' || ĕç»'''чен'''·'''сем''' || "работ»ник·и"
  +
|-
  +
|''ӗҫле'' || ӗҫ»'''ле''' || "работа»ть"
  +
|-
 
|''ӗҫле'' || ӗҫ»'''ле'''»'''тер''' || "заставить (кого-то) работать"
  +
|}
  +
==== Изменение формы слова ====
   
  +
Флективные морфемы являются носителями грамматических категорий, таких как число, падеж, время, и т.д., но не не изменяют категорию слова (часть речи), не изменяют корневого семантического значения. Например в чувашском языке ''ӗҫ'' и ''ӗҫсем'' имеют одно и тоже основное семантическое значение, но если добавить деривационный аффикс ''-лЕ'', ''ӗҫле'', тогда значение изменится и станет "делать ӗҫ".
Inflectional morphemes carry grammatical information, such as number, case, tense, etc., but do not change the word category (part of speech), nor do they change the basic semantic meaning. For example in Chuvash, ''ӗҫ'' and ''ӗҫсем'' have the same basic semantic meaning, but if you add the derivational affix ''-лЕ'', ''ӗҫле'', then the meaning changes to "do ӗҫ".
 
   
Examples of inflectional morphemes might be the ''-lar'', ''-сем'' and ''-и'' plurals (''kitap·lar'' {{slc|tr}}, ''ача·сем'' {{slc|cv}}, ''книг·и'' {{slc|ru}}), and case endings ''-ран'' (ablative), ''-ті'' (translative), and ''-де'' (locative): уй·ран {{slc|cv}}, кань·ті {{slc|kv}}, үй·де {{slc|kk}})
+
Примерами флективных морфем являются аффиксы множественного числа ''-lar'', ''-сем'' и ''-и'' (''kitap·lar'' {{slc|tr}}, ''ача·сем'' {{slc|cv}}, ''книг·и'' {{slc|ru}}), и окончания падежей ''-ран'' (аблятив), ''-ті'' (транслатив), и ''-де'' (местный падеж): уй·ран {{slc|cv}}, кань·ті {{slc|kv}}, үй·де {{slc|kk}}).
   
  +
При переводе часто именно форма слова подвергается изменениям, то есть, существуют правила, которые определяют как различные окончания слова изменяются при переводе.
In translation, inflection is very frequently treated as a productive process, meaning there are rules to determine how the different inflections of a word change in translation.
 
   
====Derivation====
+
====Деривация====
   
  +
Деривационные морфемы в свою очередь изменяют корневое семантическое значение слова, а также могут изменять часть речи. В зависимости от языковой пары, деривационные морфемы обычно подвергаются меньшим изменениям, чем флективные, так как семантические изменения, вызываемые разными деривационными морфемами, более непредсказуемы.
Derivational morphemes change the basic semantic meaning of a word, and can also change word category. Depending on the language pair involved, derivation is usually treated less than inflectional morphology, as the semantic changes caused by derivational morphemes can be more unpredictable.
 
   
Some examples of derivations might be -LIK in Kyrgyz (ай "month" + LIK = айлык "monthly wage"), -LA in Kyrgyz (ай "month" + LA = айла- "for a month to go by / пройти месяц"), and -ja in Finnish (kirjoitta+ja "write" + "agent" = "writer").
+
Следующие слова могут служить примерами деривации -LIK на кыргызском (ай "месяц" + LIK = айлык "месячная оплата"), -LA на кыргызском (ай "месяц" + LA = айла- "пройти месяц"), и -ja на финском (kirjoitta+ja "писать" + "действующее лицо" = "писатель").
   
====Compounding====
+
====Словосложение====
   
  +
Словосложение - это процесс, при котором два или более слов соединяются и образуют одно слово. Среди языков Европы, наиболее часто этот процесс заметен в германских языках и нискольких неиндоевропейских языках.
Compounding is a process where two or more words are joined together to form one. In the languages spoken in Europe, this happens most productively in the Germanic languages and in the non-Indo European languages.
 
   
  +
Примеры словосложений:
Examples of compound words might be:
 
   
 
* Tietokoneanimaatioelokuva = Tietokone+animaatio+elo+kuva {{slc|fi}}
 
* Tietokoneanimaatioelokuva = Tietokone+animaatio+elo+kuva {{slc|fi}}
 
* Kontaktlinsenverträglichkeitstest = Kontakt+Linsen+Verträglichkeit(s)+Test {{slc|de}}
 
* Kontaktlinsenverträglichkeitstest = Kontakt+Linsen+Verträglichkeit(s)+Test {{slc|de}}
* Geassevuoddjinbiila = Geasse+vuoddjin+biila {{slc|se}}
+
* Еlmegyógyintézet = Elme+gyógy+intézet {{slc|hu}}
 
* Giellamovttidanplána = Giella+movttidan+plána {{slc|se}}
 
* Giellamovttidanplána = Giella+movttidan+plána {{slc|se}}
   
  +
В языках, где словосложение очень развито, желательно, чтобы составные слова анализировались и автоматически переводились. Это позволяет сократить морфемный словарь, а также работать с ранее не встречающимися формами.
In languages where word compounding is very productive, it is desirable for compound words to be analysed and translated automatically. This reduces the size of the lexicon and allows previously unencountered forms to be dealt with nicely.
 
   
====Clitics====
+
====Клитика====
   
  +
Клитика (clitic) - это синтаксически независимое слово, которое фонологически ведет себя как аффикс другого слова. Для целей машинного перевода между письменными формами языков, нас особенно интересует аффиксы, которые пишутся орфографически либо вместе с другим словом, либо отдельно, но их форма обусловлена другим словом.
A clitic is a syntactically independent word that functions phonologically as an affix of another word. For the purposes of machine translation between written languages, we are particularly interested in affixes which are either written orthographically together with another word, or are written separately but their form is conditioned by another word.
 
   
In the Turkic languages (and some Ugric languages) there is a question word (sometimes called particle), Turkish mA, Kyrgyz ''-BI'', Kazakh ''MA'', Finnish ''-kO'', North Sámi ''-go''. Examples: ''келесің бе?'' {{slc|kk}} ''келесиңби?'' {{slc|ky}} ''tuletko?'' {{slc|fi}} ''boađátgo?'' {{slc|se}} "are you coming?". This phoneme has status as a clitic because its phonological form is dependent on the previous word, but syntactically (and sometimes orthographically) it operates on its own.
+
В тюркских языках (и в некоторых угорских языках) есть вопросительное слово (иногда его называют частица), в турецком -''mI'', татарском -''mI'', кыргызском ''-BI'', казахском ''MA'', финском ''-kO'', северо-саамском ''-go''. Примеры: ''келесің бе?'' {{slc|kk}} ''келесиңби?'' {{slc|ky}} ''tuletko?'' {{slc|fi}} ''boađátgo?'' {{slc|se}} "ты идешь?". Данная фонема является клитикой (a clitic) потому что ее фонологическая форма зависит от предыдущего слова, но синтаксически (а иногда орфографически) она самостоятельна.
   
  +
В таджикском языке, есть вариант слова для союза "и" который, синтаксический ведет себя как союз, присоединяется к предыдущему слова, каким бы оно не было. Он может иметь форму ''-у'' (после согласных) и ''-ву'' (после гласных). Альтернативным примером выражения ''чой ва шароб'' "чай и вино ": будет ''чою шароб''.
In Tajik, there is a variant of the word for "and" which, even though it functions syntactically as a conjunction, attaches to the preceding word, whatever that may be. Its forms are ''-у'' (after consonants) and ''-ву'' (after vowels). An example would be be the alternative to ''чой ва шароб'' "tea and wine": ''чою шароб''.
 
   
  +
===Морфонология===
===Morphophonology===
 
   
  +
Морфонология изучает фонологические изменения, которые происходят с морфемами при присоединении. Морфонология четко прослеживается в любом наборе морфем любого языка, но в данном разделе мы объясним этот процесс на примере суффикса множественного числа в татарском языке, -/LAr/.
Morphophonology studies the phonological changes that morphemes undergo when they are joined together. Morphophonology can be seen well in any number of morphemes in any number of languages, but here it will be explained using the plural suffix in Tatar, -/LAr/.
 
   
This suffix has four forms, depending on the noun it attaches to: -лар, -ләр, -нар, -нәр. Some examples include алма·лар "apples", тел·ләр "languages/tongues", урам+нар "streets", көн·нәр "days". Here, the first consonant alternates between /л/ and /н/ depending on the last sound of the word; in this case, it's /н/ if it immediately follows a nasal consonant (м, н, ң), and /л/ after everything else. The vowel /A/ alternates depending on the last vowel of the word: it's /а/ after "back/твёрдые vowels" (а, о, ы, у) and /ә/ after "front/мягкие vowels" (ә, э, ө, и, ү).
+
Суффикс имеет четыре формы, выбор которых зависит от существительного, к которому он присоединяется: -лар, -ләр, -нар, -нәр. Например, алма·лар "яблоки", тел·ләр "языки", урам+нар "улицы", көн·нәр "дни". В данных примерах, первый согласный это /л/ или /н/ в зависимости от звука, на который заканчивается слово; /н/ если суффикс следует непосредственно после носового согласного (м, н, ң), a /л/ после других звуков. Гласный /A/ изменяется в зависимости от последней гласной слова: после гласных заднего ряда (back/твёрдые гласные: а, о, ы, у) это /а/, а после гласных переднего ряда ("front/мягкие гласные": ә, э, ө, и, ү) это /ә/.
   
  +
===Компьютерные репрезентации===
===Computational representations===
 
   
  +
Компьютерные морфологические модели обычно пользуются инструментами под названием "конечные автоматы" (finite-state transducers) для создания морфотактики и морфонологии. Конечный автомат немного похож на схему, в которой, в зависимости от части слова которую вы загружаете, вы уже решаете какая у него будет флексия или деривация. Но в отличии от обыкновенной схемы, решение может вести к множеству заключений!
Computational models of morphology usually use tools called finite-state transducers to model both morphotactics and morphophonology. A finite-state transducer is a bit like a flowchart, where depending on the part of the word you are reading, you make different decisions as to what inflection or derivation it has. Unlike the typical flowchart however, a decision may lead to more than one conclusion!
 
   
  +
[[Image:Bashkir lexc.png|800px|center|thumb|Конечный автомат, моделирующий основные категории морфотактики трех имен существительных на башкирском языке (множественное число, принадлежность, падеж). Заметьте, как используются архифонемы (буквы в <code>{</code> и <code>}</code>) для репрезентации букв, которые могут изменяться согласно правилам фонологии.]]
[[Image:Bashkir lexc.png|800px|center|thumb|A finite-state transducer modelling the basic nominal morphotactics (plural, possession, case) of three words in Bashkir. Note how archiphonemes (letters in <code>{</code> and <code>}</code>) are used to represent letters that can change according to the phonology.]]
 
   
  +
Вышеупомянутый автомат, в более расширенном виде сложен для полного ознакомления, но, если мы удалим категорию принадлежности, нам будет проще более детально посмотреть как он работает.
The above transducer, once expanded is too big to easily read through, but if we remove the possessives, we can take a closer look at how it works.
 
   
[[File:Bashkir mektep.png|800px|center|thumb|A finite-state transducer modelling the case and number inflection of the Bashkir word ''мәктәп'' "school".]]
+
[[File:Bashkir mektep.png|800px|center|thumb|Конечный автомат, моделирующий падежное окончание и окончание множественного числа башкирского слова ''мәктәп'' "школа".]]
   
  +
Из нашего примера башкирское слово ''мәктәп'' "школа" изменяется по числам (единственное, множественное) и падежам (именительный, родительный, дательный, винительный, местный и творительный). Если посмотреть на вышеуказанный автомат, каждая кривая на графике имеет обозначение (пометку). Она состоит из двух частей, левая часть (слева от <code>:</code>) и правая (справа от <code>:</code>). При чтении слева направо мы можем провести анализ слова.
Consider the example of the word ''мәктәп'' "school" in Bashkir, it declines for number (singular, plural) and case (nominative, genitive, dative, accusative, locative and ablative). If we look at the transducer above, each arc in the graph has a label. The label has two parts, a left side (on the left of <code>:</code>) and a right side (on the right of <code>:</code>). If we read from left to right, we can analyse a word.
 
   
 
<div style="float: right">
 
<div style="float: right">
 
{|class=wikitable
 
{|class=wikitable
! !! Singular !! Plural
+
! !! Ед.число !! Множественное
 
|-
 
|-
| '''Nominative''' || мәктәп || мәктәптәр
+
| '''Именительный''' || мәктәп || мәктәптәр
 
|-
 
|-
| '''Accusative''' || мәктәпте || мәктәптәрҙе
+
| '''Винительный''' || мәктәпте || мәктәптәрҙе
 
|-
 
|-
| '''Genitive''' || мәктәптең || мәктәптәрҙең
+
| '''Родительный''' || мәктәптең || мәктәптәрҙең
 
|-
 
|-
| '''Locative''' || мәктәптә || мәктәптәрҙә
+
| '''Местный''' || мәктәптә || мәктәптәрҙә
 
|-
 
|-
| '''Ablative''' || мәктәптән || мәктәптәрҙән
+
| '''Творительный''' || мәктәптән || мәктәптәрҙән
 
|-
 
|-
| '''Dative''' || мәктәпкә || мәктәптәргә
+
| '''Дательный''' || мәктәпкә || мәктәптәргә
 
|-
 
|-
 
|}
 
|}
 
</div>
 
</div>
   
You can try doing this with one word from the declension table on the right. For example ''мәктәптәрҙән'' "from (the) schools". We should get the analysis <code>мәктәп<n><pl><abl></code>. The process goes something like as follows:
+
Вы можете попробовать проделать такую же работу со словом из таблицы склонений справа. Например, ''мәктәптәрҙән'' "из школ". Нам следует получить следующий анализ <code>мәктәп<n><pl><abl></code>. Процесс выглядит примерно следующим образом:
   
 
* read <code>м</code>, write <code>м</code> (input: <code>м</code>, оutput: <code>м</code>)
 
* read <code>м</code>, write <code>м</code> (input: <code>м</code>, оutput: <code>м</code>)
Line 113: Line 126:
 
* read <code>н</code>, write <code>0</code> (input: <code>мәктәп0тәp0ҙән</code>, оutput: <code>мәктәп</code>{{tag|n}}{{tag|pl}}00{{tag|abl}}<code>000</code>)
 
* read <code>н</code>, write <code>0</code> (input: <code>мәктәп0тәp0ҙән</code>, оutput: <code>мәктәп</code>{{tag|n}}{{tag|pl}}00{{tag|abl}}<code>000</code>)
   
  +
Заметьте, что загрузка и написание 0 означает ничего не загружать и не записывать.
Note that reading or writing 0 is like reading or writing nothing.
 
   
  +
==Практическая часть==
==Practice==
 
   
  +
Для практической части есть два раздаточных материала,
There are two handouts for this practical,
 
   
 
* [[Как использовать HFST, чтобы разработать новый морфологический анализатор]]
 
* [[Как использовать HFST, чтобы разработать новый морфологический анализатор]]
* Как использовать lttoolbox, чтобы разработать новый морфологический анализатор
+
* [[Как использовать lttoolbox, чтобы разработать новый морфологический анализатор]]
   
  +
==Для дальнейшего чтения==
==Further reading==
 
   
* Kenneth R. Beesley and Lauri Karttunen (2003) ''Finite-State Morphology'' (CSLI Publications)
+
* Kenneth R. Beesley and Lauri Karttunen (2003) ''Конечная морфология / Finite-State Morphology'' (CSLI Publications)
* Richard Sproat (1992) ''Morphology and Computation'' (MIT Press)
+
* Richard Sproat (1992) ''Морфология и компьютерные вычисления / Morphology and Computation'' (MIT Press)
 
* Francis M. Tyers (2007) "[[Руководство по созданию новой языковой пары]]" (Apertium Wiki)
 
* Francis M. Tyers (2007) "[[Руководство по созданию новой языковой пары]]" (Apertium Wiki)
   

Latest revision as of 12:00, 31 January 2012

Данный раздел имеет две цели. Первая цель - дать теоретические представления о морфологии, как слова склоняются и как формируются новые слова. И вторая цель - показать, как происходит анализ и морфологический разбор в системе Apertium.

Tеория[edit]

Данный теоретический раздел разбит на три подраздела. В первом подразделе речь пойдет о "морфотактике", т.е.как морфемы (части слова) возникают и затем соединяются. Во втором подразделе более подробно будет говориться о "морфонологии", т.е. о том, какие изменения происходят в морфемах в результате их соединения. И в последнем подразделе мы расскажем о том, как с этими процессами работает компьютер.

Морфотактика[edit]

Морфотактика языка - это способ, которым морфемы в данном языке соединяются для формирования слов. Морфемы - наименьшие смыслообразующие части. Морфемы могут быть свободными или связанными. Свободные морфемы - это морфемы, которые могут встречаться сами по себе (например, как, один, компьютер), а связанные - которые должны быть связаны с другим словом (например, -ность (→ способность, влажность, личность) мо- (→ мой, моя, моей, и т.д.), -ей (→ моей, семьей, словарей, и т.д.)). Одна морфема может иметь несколько алломорфов, которые обозначают одно и то же, но пишутся или произносятся по-разному. Например, дательные падеж (обозначает направление по отношению к предмету) в Чувашском языке имеет несколько алломорфов, употребление которых зависит от качества гласного в основе слова, после которой он употребляется.

aчама ача·м·а "к моему ребенку"
ачамсене ача·м·сен·е "к моим детям"
ӗҫӗме ӗҫ·ӗм·е "к моей работе"
каҫмана каҫма·на "переходу"

Дальше морфемы могут быть разделены на два подтипа, флективные и деривационные. В примерах, знак · указывает на деривационный стык, а » - на флективный стык.

ӗҫ ӗҫ "работ·а"
ӗҫсем ӗҫ·сем "работ·ы"
ĕçчен ĕç»чен "работ»ник"
ĕçченсем ĕç»чен·сем "работ»ник·и"
ӗҫле ӗҫ»ле "работа»ть"
ӗҫле ӗҫ»ле»тер "заставить (кого-то) работать"

Изменение формы слова[edit]

Флективные морфемы являются носителями грамматических категорий, таких как число, падеж, время, и т.д., но не не изменяют категорию слова (часть речи), не изменяют корневого семантического значения. Например в чувашском языке ӗҫ и ӗҫсем имеют одно и тоже основное семантическое значение, но если добавить деривационный аффикс -лЕ, ӗҫле, тогда значение изменится и станет "делать ӗҫ".

Примерами флективных морфем являются аффиксы множественного числа -lar, -сем и (kitap·lar (tr), ача·сем (cv), книг·и (ru)), и окончания падежей -ран (аблятив), -ті (транслатив), и -де (местный падеж): уй·ран (cv), кань·ті (kv), үй·де (kk)).

При переводе часто именно форма слова подвергается изменениям, то есть, существуют правила, которые определяют как различные окончания слова изменяются при переводе.

Деривация[edit]

Деривационные морфемы в свою очередь изменяют корневое семантическое значение слова, а также могут изменять часть речи. В зависимости от языковой пары, деривационные морфемы обычно подвергаются меньшим изменениям, чем флективные, так как семантические изменения, вызываемые разными деривационными морфемами, более непредсказуемы.

Следующие слова могут служить примерами деривации -LIK на кыргызском (ай "месяц" + LIK = айлык "месячная оплата"), -LA на кыргызском (ай "месяц" + LA = айла- "пройти месяц"), и -ja на финском (kirjoitta+ja "писать" + "действующее лицо" = "писатель").

Словосложение[edit]

Словосложение - это процесс, при котором два или более слов соединяются и образуют одно слово. Среди языков Европы, наиболее часто этот процесс заметен в германских языках и нискольких неиндоевропейских языках.

Примеры словосложений:

  • Tietokoneanimaatioelokuva = Tietokone+animaatio+elo+kuva (fi)
  • Kontaktlinsenverträglichkeitstest = Kontakt+Linsen+Verträglichkeit(s)+Test (de)
  • Еlmegyógyintézet = Elme+gyógy+intézet (hu)
  • Giellamovttidanplána = Giella+movttidan+plána (se)

В языках, где словосложение очень развито, желательно, чтобы составные слова анализировались и автоматически переводились. Это позволяет сократить морфемный словарь, а также работать с ранее не встречающимися формами.

Клитика[edit]

Клитика (clitic) - это синтаксически независимое слово, которое фонологически ведет себя как аффикс другого слова. Для целей машинного перевода между письменными формами языков, нас особенно интересует аффиксы, которые пишутся орфографически либо вместе с другим словом, либо отдельно, но их форма обусловлена другим словом.

В тюркских языках (и в некоторых угорских языках) есть вопросительное слово (иногда его называют частица), в турецком -mI, татарском -mI, кыргызском -BI, казахском MA, финском -kO, северо-саамском -go. Примеры: келесің бе? (kk) келесиңби? (ky) tuletko? (fi) boađátgo? (se) "ты идешь?". Данная фонема является клитикой (a clitic) потому что ее фонологическая форма зависит от предыдущего слова, но синтаксически (а иногда орфографически) она самостоятельна.

В таджикском языке, есть вариант слова для союза "и" который, синтаксический ведет себя как союз, присоединяется к предыдущему слова, каким бы оно не было. Он может иметь форму (после согласных) и -ву (после гласных). Альтернативным примером выражения чой ва шароб "чай и вино ": будет чою шароб.

Морфонология[edit]

Морфонология изучает фонологические изменения, которые происходят с морфемами при присоединении. Морфонология четко прослеживается в любом наборе морфем любого языка, но в данном разделе мы объясним этот процесс на примере суффикса множественного числа в татарском языке, -/LAr/.

Суффикс имеет четыре формы, выбор которых зависит от существительного, к которому он присоединяется: -лар, -ләр, -нар, -нәр. Например, алма·лар "яблоки", тел·ләр "языки", урам+нар "улицы", көн·нәр "дни". В данных примерах, первый согласный это /л/ или /н/ в зависимости от звука, на который заканчивается слово; /н/ если суффикс следует непосредственно после носового согласного (м, н, ң), a /л/ после других звуков. Гласный /A/ изменяется в зависимости от последней гласной слова: после гласных заднего ряда (back/твёрдые гласные: а, о, ы, у) это /а/, а после гласных переднего ряда ("front/мягкие гласные": ә, э, ө, и, ү) это /ә/.

Компьютерные репрезентации[edit]

Компьютерные морфологические модели обычно пользуются инструментами под названием "конечные автоматы" (finite-state transducers) для создания морфотактики и морфонологии. Конечный автомат немного похож на схему, в которой, в зависимости от части слова которую вы загружаете, вы уже решаете какая у него будет флексия или деривация. Но в отличии от обыкновенной схемы, решение может вести к множеству заключений!

Конечный автомат, моделирующий основные категории морфотактики трех имен существительных на башкирском языке (множественное число, принадлежность, падеж). Заметьте, как используются архифонемы (буквы в { и }) для репрезентации букв, которые могут изменяться согласно правилам фонологии.

Вышеупомянутый автомат, в более расширенном виде сложен для полного ознакомления, но, если мы удалим категорию принадлежности, нам будет проще более детально посмотреть как он работает.

Конечный автомат, моделирующий падежное окончание и окончание множественного числа башкирского слова мәктәп "школа".

Из нашего примера башкирское слово мәктәп "школа" изменяется по числам (единственное, множественное) и падежам (именительный, родительный, дательный, винительный, местный и творительный). Если посмотреть на вышеуказанный автомат, каждая кривая на графике имеет обозначение (пометку). Она состоит из двух частей, левая часть (слева от :) и правая (справа от :). При чтении слева направо мы можем провести анализ слова.

Ед.число Множественное
Именительный мәктәп мәктәптәр
Винительный мәктәпте мәктәптәрҙе
Родительный мәктәптең мәктәптәрҙең
Местный мәктәптә мәктәптәрҙә
Творительный мәктәптән мәктәптәрҙән
Дательный мәктәпкә мәктәптәргә

Вы можете попробовать проделать такую же работу со словом из таблицы склонений справа. Например, мәктәптәрҙән "из школ". Нам следует получить следующий анализ мәктәп<n><pl><abl>. Процесс выглядит примерно следующим образом:

  • read м, write м (input: м, оutput: м)
  • read ә, write ә (input: мә, оutput: мә)
  • read к, write к (input: мәк, оutput: мәк)
  • read т, write т (input: мәкт, оutput: мәкт)
  • read ә, write ә (input: мәктә, оutput: мәктә)
  • read п, write п (input: мәктәп, оutput: мәктәп)
  • read 0, write <n> (input: мәктәп0, оutput: мәктәп<n>)
  • read т, write <pl> (input: мәктәп0т, оutput: мәктәп<n><pl>)
  • read ә, write 0 (input: мәктәп0тә, оutput: мәктәп<n><pl>0)
  • read p, write 0 (input: мәктәп0тәp, оutput: мәктәп<n><pl>00)
  • read 0, write <abl> (input: мәктәп0тәp0, оutput: мәктәп<n><pl>00<abl>)
  • read ҙ, write 0 (input: мәктәп0тәp0ҙ, оutput: мәктәп<n><pl>00<abl>0)
  • read ә, write 0 (input: мәктәп0тәp0ҙә, оutput: мәктәп<n><pl>00<abl>00)
  • read н, write 0 (input: мәктәп0тәp0ҙән, оutput: мәктәп<n><pl>00<abl>000)

Заметьте, что загрузка и написание 0 означает ничего не загружать и не записывать.

Практическая часть[edit]

Для практической части есть два раздаточных материала,

Для дальнейшего чтения[edit]