Difference between revisions of "Курсы машинного перевода для языков России/Раздел 1"
Line 33: | Line 33: | ||
In translation, inflection is very frequently treated as a productive process, meaning there are rules to determine how the different inflections of a word change in translation. |
In translation, inflection is very frequently treated as a productive process, meaning there are rules to determine how the different inflections of a word change in translation. |
||
==== |
====Деривация==== |
||
Деривационные морфемы в свою очередь изменяют основное семантическое значение слова, а также могут изменять категорию слова. В зависимости от языковой пары, деривационные морфемы обычно подвергаются меньшей обработке, чем флективные, так как семантические изменения, вызываемые разными деривационными морфемами, более непредсказуемы. |
Деривационные морфемы в свою очередь изменяют основное семантическое значение слова, а также могут изменять категорию слова. В зависимости от языковой пары, деривационные морфемы обычно подвергаются меньшей обработке, чем флективные, так как семантические изменения, вызываемые разными деривационными морфемами, более непредсказуемы. |
||
Derivational morphemes change the basic semantic meaning of a word, and can also change word category. Depending on the language pair involved, derivation is usually treated less than inflectional morphology, as the semantic changes caused by derivational morphemes can be more unpredictable. |
Derivational morphemes change the basic semantic meaning of a word, and can also change word category. Depending on the language pair involved, derivation is usually treated less than inflectional morphology, as the semantic changes caused by derivational morphemes can be more unpredictable. |
||
Следующие слова могут служить примерами |
Следующие слова могут служить примерами деривации -LIK в Киргиз (ай "месяц" + LIK = айлык "месячная оплата"), -LA in Kyrgyz (ай "месяц" + LA = айла- "for a month to go by / пройти месяц"), и -ja на финском (kirjoitta+ja "писать" + "действующее лицо" = "писатель"). |
||
==== |
====Словосложение==== |
||
Словосложение - это процесс, при котором два или более слов соединяются и образуют одно слово. Среди языков Европы, наиболее часто этот процесс заметен в германских языках и не индоевропейских языках. |
|||
Compounding is a process where two or more words are joined together to form one. In the languages spoken in Europe, this happens most productively in the Germanic languages and in the non-Indo European languages. |
|||
Примеры словосложений: |
|||
Examples of compound words might be: |
|||
* Tietokoneanimaatioelokuva = Tietokone+animaatio+elo+kuva {{slc|fi}} |
* Tietokoneanimaatioelokuva = Tietokone+animaatio+elo+kuva {{slc|fi}} |
||
Line 51: | Line 51: | ||
* Giellamovttidanplána = Giella+movttidan+plána {{slc|se}} |
* Giellamovttidanplána = Giella+movttidan+plána {{slc|se}} |
||
В языках, где словосложение очень развито, желательно, чтобы составные слова анализировались и автоматически переводились. Это позволяет сократить морфемный лексикон, а также работать с ранее не встречающимися формами. |
|||
In languages where word compounding is very productive, it is desirable for compound words to be analysed and translated automatically. This reduces the size of the lexicon and allows previously unencountered forms to be dealt with nicely. |
|||
====Clitics==== |
====Clitics==== |
||
Клитика (A clitic) - это синтаксически независимое слово, которое фонологически ведет себя как аффикс другого слова. Для целей машинного перевода между письменными языками, нас особенно интересует аффиксы, которые либо пишутся орфографически вместе с другим словом, либо отдельно, но их форма определяется другим словом. |
|||
For the purposes of machine translation between written languages, we are particularly interested in affixes which are either written orthographically together with another word, or are written separately but their form is conditioned by another word. |
|||
В тюркских языках (в некоторых угорских языках) есть вопросительное слово (иногда его называют частица), в турецком mA, Kyrgyz ''-BI'', казахском ''MA'', финском ''-kO'', северо-саамском North Sámi ''-go''. Примеры: ''келесің бе?'' {{slc|kk}} ''келесиңби?'' {{slc|ky}} ''tuletko?'' {{slc|fi}} ''boađátgo?'' {{slc|se}} "ты идешь?". Данная фонема является клитикой (a clitic) потому что ее фонологическая форма зависит от предыдущего слова, но синтаксически (а иногда орфографически) она самостоятельна. |
|||
In Tajik, there is a variant of the word for "and" which, even though it functions syntactically as a conjunction, attaches to the preceding word, whatever that may be. Its forms are ''-у'' (after consonants) and ''-ву'' (after vowels). An example would be be the alternative to ''чой ва шароб'' "tea and wine": ''чою шароб''. |
In Tajik, there is a variant of the word for "and" which, even though it functions syntactically as a conjunction, attaches to the preceding word, whatever that may be. Its forms are ''-у'' (after consonants) and ''-ву'' (after vowels). An example would be be the alternative to ''чой ва шароб'' "tea and wine": ''чою шароб''. |
Revision as of 19:24, 30 December 2011
Данный раздел имеет две цели. Первая цель - дать теоретический обзор морфологии, как слова склоняются и как формируются новые слова. И вторая цель - показать, как происходит анализ и морфологический разбор в системе Apertium.
Tеория
Данный теоретический раздел разбит на три подраздела. В первом разделе речь пойдет о "морфотактике", т.е.как морфемы (части слова) возникают и затем соединяются. Во втором разделе более подробно будет говориться о "морфофонологии", т.е. о том, какие изменения происходят в морфемах в результате их соединения. И в последнем подразделе речь пойдет о том, как с этими процессами работает компьютер.
Морфотактика
Морфотактика языка это способ, которым морфемы в данном языке соединяются для формирования слов. Морфемы - это наименьшие смыслообразующие части. Морфемы могут быть свободными или связанными. Свободные морфемы - это морфемы, которые могут встречаться сами по себе, а связанные - которые должны быть связаны с другим словом. Одна морфема может иметь несколько алломорфов, которые обозначают одно и то же, но пишутся или произносятся по-разному. Например, дательные падеж (обозначает направление по отношению к предмету)в Чувашском языке имеет несколько алломорфов, употребление которых зависит от качества гласного в основе слова, после которой он употребляется.
- aчама ача·м·а "to my child"
- ачамсене ача·м·сен·е "to my children"
- ӗҫӗме ӗҫ·ӗм·е "to my work"
- каҫмана каҫма·на "переходу"
Дальше морфемы могут быть разделены на два подтипа,флективные и деривационные. В примерах, · указывает на деривационный стык, и » - на флективный стык.
- ӗҫ ӗҫ "работ·а"
- ӗҫсем ӗҫ·сем "работ·ы"
- ĕçчен ĕç»чен "работ»ник"
- ĕçченсем ĕç»чен·сем "работ»ник·и"
- ӗҫле ӗҫ»ле "работа»ть"
- ӗҫле ӗҫ»ле»тер "to make (someone) work"
Флексия (изменение формы слова)
Флективные морфемы являются носителями грамматических категорий, таких как число, падеж, время, и тд.,но не не изменяют категорию слова (часть речи), не изменяют основного семантического значения. Например в чувашском языке ӗҫ и ӗҫсем имеют одно и тоже основное семантическое значение, но если добавить деривационный аффикс -лЕ, ӗҫле, тогда значение изменится и станет "do ӗҫ".
Примерами флективных морфем являются -lar, -сем и -и plurals (kitap·lar (tr
), ача·сем (cv
), книг·и (ru
)), and case endings -ран (ablative), -ті (translative), and -де (locative): уй·ран (cv
), кань·ті (kv
), үй·де (kk
))
При переводе часто именно форма слова подвергается обработке, а именно, существуют правила, которые определяют как различные окончания слова изменяются при переводе. In translation, inflection is very frequently treated as a productive process, meaning there are rules to determine how the different inflections of a word change in translation.
Деривация
Деривационные морфемы в свою очередь изменяют основное семантическое значение слова, а также могут изменять категорию слова. В зависимости от языковой пары, деривационные морфемы обычно подвергаются меньшей обработке, чем флективные, так как семантические изменения, вызываемые разными деривационными морфемами, более непредсказуемы. Derivational morphemes change the basic semantic meaning of a word, and can also change word category. Depending on the language pair involved, derivation is usually treated less than inflectional morphology, as the semantic changes caused by derivational morphemes can be more unpredictable.
Следующие слова могут служить примерами деривации -LIK в Киргиз (ай "месяц" + LIK = айлык "месячная оплата"), -LA in Kyrgyz (ай "месяц" + LA = айла- "for a month to go by / пройти месяц"), и -ja на финском (kirjoitta+ja "писать" + "действующее лицо" = "писатель").
Словосложение
Словосложение - это процесс, при котором два или более слов соединяются и образуют одно слово. Среди языков Европы, наиболее часто этот процесс заметен в германских языках и не индоевропейских языках.
Примеры словосложений:
- Tietokoneanimaatioelokuva = Tietokone+animaatio+elo+kuva (
fi
) - Kontaktlinsenverträglichkeitstest = Kontakt+Linsen+Verträglichkeit(s)+Test (
de
) - Geassevuoddjinbiila = Geasse+vuoddjin+biila (
se
) - Giellamovttidanplána = Giella+movttidan+plána (
se
)
В языках, где словосложение очень развито, желательно, чтобы составные слова анализировались и автоматически переводились. Это позволяет сократить морфемный лексикон, а также работать с ранее не встречающимися формами.
Clitics
Клитика (A clitic) - это синтаксически независимое слово, которое фонологически ведет себя как аффикс другого слова. Для целей машинного перевода между письменными языками, нас особенно интересует аффиксы, которые либо пишутся орфографически вместе с другим словом, либо отдельно, но их форма определяется другим словом. For the purposes of machine translation between written languages, we are particularly interested in affixes which are either written orthographically together with another word, or are written separately but their form is conditioned by another word.
В тюркских языках (в некоторых угорских языках) есть вопросительное слово (иногда его называют частица), в турецком mA, Kyrgyz -BI, казахском MA, финском -kO, северо-саамском North Sámi -go. Примеры: келесің бе? (kk
) келесиңби? (ky
) tuletko? (fi
) boađátgo? (se
) "ты идешь?". Данная фонема является клитикой (a clitic) потому что ее фонологическая форма зависит от предыдущего слова, но синтаксически (а иногда орфографически) она самостоятельна.
In Tajik, there is a variant of the word for "and" which, even though it functions syntactically as a conjunction, attaches to the preceding word, whatever that may be. Its forms are -у (after consonants) and -ву (after vowels). An example would be be the alternative to чой ва шароб "tea and wine": чою шароб.
Morphophonology
Morphophonology studies the phonological changes that morphemes undergo when they are joined together. Morphophonology can be seen well in any number of morphemes in any number of languages, but here it will be explained using the plural suffix in Tatar, -/LAr/.
This suffix has four forms, depending on the noun it attaches to: -лар, -ләр, -нар, -нәр. Some examples include алма·лар "apples", тел·ләр "languages/tongues", урам+нар "streets", көн·нәр "days". Here, the first consonant alternates between /л/ and /н/ depending on the last sound of the word; in this case, it's /н/ if it immediately follows a nasal consonant (м, н, ң), and /л/ after everything else. The vowel /A/ alternates depending on the last vowel of the word: it's /а/ after "back/твёрдые vowels" (а, о, ы, у) and /ә/ after "front/мягкие vowels" (ә, э, ө, и, ү).
Computational representations
Computational models of morphology usually use tools called finite-state transducers to model both morphotactics and morphophonology. A finite-state transducer is a bit like a flowchart, where depending on the part of the word you are reading, you make different decisions as to what inflection or derivation it has. Unlike the typical flowchart however, a decision may lead to more than one conclusion!
The above transducer, once expanded is too big to easily read through, but if we remove the possessives, we can take a closer look at how it works.
Consider the example of the word мәктәп "school" in Bashkir, it declines for number (singular, plural) and case (nominative, genitive, dative, accusative, locative and ablative). If we look at the transducer above, each arc in the graph has a label. The label has two parts, a left side (on the left of :
) and a right side (on the right of :
). If we read from left to right, we can analyse a word.
Singular | Plural | |
---|---|---|
Nominative | мәктәп | мәктәптәр |
Accusative | мәктәпте | мәктәптәрҙе |
Genitive | мәктәптең | мәктәптәрҙең |
Locative | мәктәптә | мәктәптәрҙә |
Ablative | мәктәптән | мәктәптәрҙән |
Dative | мәктәпкә | мәктәптәргә |
You can try doing this with one word from the declension table on the right. For example мәктәптәрҙән "from (the) schools". We should get the analysis мәктәп<n><pl><abl>
. The process goes something like as follows:
- read
м
, writeм
(input:м
, оutput:м
) - read
ә
, writeә
(input:мә
, оutput:мә
) - read
к
, writeк
(input:мәк
, оutput:мәк
) - read
т
, writeт
(input:мәкт
, оutput:мәкт
) - read
ә
, writeә
(input:мәктә
, оutput:мәктә
) - read
п
, writeп
(input:мәктәп
, оutput:мәктәп
) - read
0
, write<n>
(input:мәктәп0
, оutput:мәктәп
<n>
) - read
т
, write<pl>
(input:мәктәп0т
, оutput:мәктәп
<n>
<pl>
) - read
ә
, write0
(input:мәктәп0тә
, оutput:мәктәп
<n>
<pl>
0) - read
p
, write0
(input:мәктәп0тәp
, оutput:мәктәп
<n>
<pl>
00) - read
0
, write<abl>
(input:мәктәп0тәp0
, оutput:мәктәп
<n>
<pl>
00<abl>
) - read
ҙ
, write0
(input:мәктәп0тәp0ҙ
, оutput:мәктәп
<n>
<pl>
00<abl>
0
) - read
ә
, write0
(input:мәктәп0тәp0ҙә
, оutput:мәктәп
<n>
<pl>
00<abl>
00
) - read
н
, write0
(input:мәктәп0тәp0ҙән
, оutput:мәктәп
<n>
<pl>
00<abl>
000
)
Note that reading or writing 0 is like reading or writing nothing.
Practice
There are two handouts for this practical,
- Как использовать HFST, чтобы разработать новый морфологический анализатор
- Как использовать lttoolbox, чтобы разработать новый морфологический анализатор
Further reading
- Kenneth R. Beesley and Lauri Karttunen (2003) Finite-State Morphology (CSLI Publications)
- Richard Sproat (1992) Morphology and Computation (MIT Press)
- Francis M. Tyers (2007) "Руководство по созданию новой языковой пары" (Apertium Wiki)