Как начать работу с правилами по выбору лексики
В данном разделе мы хотим рассказать о том, как начать создавать правила для лексической выборки. В нем будут даны несколько подходов, с примерами правил в формате выбор лексики на основе ограничения.
Первый подход
Выберите свои слова
Прежде чем начать создавать правила лексической выборки, вам сначала нужно выбрать слово в языке-источнике (например, английский), которое на языке перевода (например, русский) будет иметь сразу несколько вариантов перевода. Например
- argument → спор
- argument → довод
- argument → аргумент
Подумайте о контексте
Очень часто слова, которые окружают искомое слово помогают выбрать вариант перевода, например, глагол может подсказать как лучше перевести существительное, или существительное помогает понять как перевести прилагательное.
Например, если это выражение "to have an argument", то здесь вероятно слово argument будет переводиться как "спор" ("иметь спор"), тогда как если мы возьмем выражение "to accept the argument" , то здесь больше подойдет вариант "довод" ("принять довод").
Подумайте о синонимах и антонимах
Если у вас есть правило, вам нужно сделать его более общим, для этого нужно придумать синонимы и антонимы для слов которые его могут встречаться в контексте с ним. Например, у вас такое правило:
<rule> <match lemma="positive" tags="*"/> <match lemma="charge" tags="n.*"> <select lemma="заряд" tags="n.*"/> </match> </rule>
Легко подумать что антоним для "положительный" это "отрицательный", и тоже добавить это слово:
<rule> <or> <match lemma="positive" tags="*"/> <match lemma="negative" tags="*"/> </or> <match lemma="charge" tags="n.*"> <select lemma="заряд" tags="n.*"/> </match> </rule>
Подумайте о семантический связанных словах
Если у вас есть правило:
<rule> <match lemma="wind"/> <match lemma="power" tags="n.*"> <select lemma="энергия" tags="n.*"/> </match> </rule>
Возможно вы считаете что перевод слова "power" как "энергия" (вместо шаблонного заданного перевода власть) может встречаться чаще, чем только после слов "ветер", например, "solar power" солнечная энергия, "wave power" энергия морских волн. Тогда нужно, например:
<rule> <or> <match lemma="wind"/> <match lemma="solar"/> <match lemma="hydro"/> <match lemma="geothermal"/> <match lemma="tidal"/> </or> <match lemma="power" tags="n.*"> <select lemma="энергия" tags="n.*"/> </match> </rule>
И размышления об этом возможно приведут вас к созданию следующих правил , например "electrical power" вариант перевода не электрическая мощность, а электрическая энергия (или еще лучше электроэнергия).
Посмотрите на согласование concordance
Согласование concordance (или "ключевое слово в контексте") это набор предложений, которые сцентрированы на одном слове is a set of sentences where they are centred on a single word (иногда это слово называют "ключевым словом"). Для соглсования мы можете воспользоваться To make a concordance you can use a concordancer (e.g. apertium-concord).
Посмотрите на пример из европарламента:
represent, to the President and to the Governor of Texas, Mr Bush, who has the power to order a stay We should do everything within our We should do everything within our power to force the On the market, the balance of On the market, the balance of power between supply and The scandalous concentration of The scandalous concentration of power in sectors of strategic fact, retaining not only the The Commission is, in fact, retaining not only the power to your questions about the nuclear Turning to your questions about the nuclear power stations in financing required for improving the degree of efficiency and safety of nuclear power stations in certain have the Mr President, it is clear that the European Union does not have the power to intervene in the the balance of I therefore feel we must carefully consider the balance of power that we are in the sea's Having spent a lot of time at sea myself I am well aware of the sea's power and destructive force, The Commission is following with interest the planned construction of a nuclear power plant in Akkuyu, Turkey siting, construction, commissioning, operation and decommissioning of nuclear power plants in Turkey rests a serious risk that some idiot will decide that the new geopolitical balance of power in the Caucasus calls in the development of that nuclear If we see in the development of that nuclear power build a nuclear If the conclusion is that Turkey is planning to build a nuclear power plant that does not none of the upheaval would have been caused had we not acted with parliamentary power to press for changes yet the police are being forced into a position where they will not have the power to resist the terrorist right to interfere in the formation of a government even though it has assumed power on the basis of unusual about what is happening in Austria: there has been a changeover of power following democratic for this Intergovernmental Conference to score a hat trick; that of the power to act, democratic course, we need to create the At the same time of course, we need to create the power to act in order The European Union must also have the The European Union must also have the power to act ...
Если вы сами делаете согласование concordance, особенно интересны следующие выражения: "nuclear power", "nuclear power station", "nuclear power plant", "parliamentary power", "sea's power", "balance of power", "concentration of power", "power to act", "motive power", "abuse of power", "decision-making power", "power supply", "come into power", "economic power", "power structures", "combined power and heat", "political power".
Try a parallel corpus
You can look at which contexts are used in one translation, but not another by looking at a parallel corpus. (Here the example uses English and Spanish from the Europarliament corpus, but you may use e.g. the Национальный корпус русского языка)
$ paste europarl-v6.es-en.en europarl-v6.es-en.es | grep ' power .* potencia ' Since the Union as a whole is a world-class fishing '''power''' and one of the largest markets for fish produce, ... Por ser la Unión en conjunto una '''potencia''' pesquera en el nivel mundial y uno de los mayores mercados de productos pesqueros, ...
Second approach
Another approach is to write rules to fix translation errors that you come across. In order to try this out, take a big text (for example a newspaper article), and run it through the translator.
For example, if we take this article, the translation is pretty bad, but there are some places where lexical selection could improve the picture.
- MPs who had spent almost six hours debating the state of the UK economy voted by 213 to 79, a majority of 134.
- Депутаты, которые израсходовали почти шесть часов обсуждали состояние экономики Великобритании проголосовали 213 до 79, большинство из 134.
In English, "spend" can have a number of meanings, among them "to pass time" проводить and "to pay money" расходовать. In this case, we see that the context demands the translation of проводить because it is talking about time spent. So, we might make a rule like the following:
<rule> <!-- MPs spent almost six hours debating... --> <match lemma="spend" tags="vblex.*"> <select lemma="проводить" tags="vblex.*"/> </match> <match/> <match/> <or> <match lemma="minute"/> <match lemma="hour"/> <match lemma="year"/> </or> </rule>