Как начать работу с правилами по выбору лексики

From Apertium
Revision as of 18:09, 21 January 2012 by Enjo (talk | contribs)
Jump to navigation Jump to search

В данном разделе мы хотим рассказать о том, как начать создавать правила для лексической выборки. В нем будут даны несколько подходов, с примерами правил в формате выбор лексики на основе ограничения.

Первый подход

Выберите свои слова

Прежде чем начать создавать правила лексической выборки, вам сначала нужно выбрать слово в языке-источнике (например, английский), которое на языке перевода (например, русский) будет иметь сразу несколько вариантов перевода. Например

  • argument → спор
  • argument → довод
  • argument → аргумент

Подумайте о контексте

Очень часто слова, которые окружают искомое слово помогают выбрать вариант перевода, например, глагол может подсказать как лучше перевести существительное, или существительное помогает понять как перевести прилагательное.

Например, если это выражение "to have an argument", то здесь вероятно слово argument будет переводиться как "спор" ("иметь спор"), тогда как если мы возьмем выражение "to accept the argument" , то здесь больше подойдет вариант "довод" ("принять довод").

Подумайте о синонимах и антонимах

Если у вас есть правило, вам нужно сделать его более общим, для этого нужно придумать синонимы и антонимы для слов которые его могут встречаться в контексте с ним. Например, у вас такое правило:

	<rule>
	  <match lemma="positive" tags="*"/>
	  <match lemma="charge" tags="n.*">
	    <select lemma="заряд" tags="n.*"/>
	  </match>
	</rule>

Легко подумать что антоним для "положительный" это "отрицательный", и тоже добавить это слово:

	<rule>
          <or>
	    <match lemma="positive" tags="*"/>
	    <match lemma="negative" tags="*"/>
          </or>
	  <match lemma="charge" tags="n.*">
	    <select lemma="заряд" tags="n.*"/>
	  </match>
	</rule>

Подумайте о семантический связанных словах

Если у вас есть правило:

	<rule>
	  <match lemma="wind"/>
	  <match lemma="power" tags="n.*">
	    <select lemma="энергия" tags="n.*"/>
	  </match>
	</rule>

Возможно вы считаете что перевод слова "power" как "энергия" (вместо шаблонного заданного перевода власть) может встречаться чаще, чем только после слов "ветер", например, "solar power" солнечная энергия, "wave power" энергия морских волн. Тогда нужно, например:

	<rule>
          <or>
	    <match lemma="wind"/>
	    <match lemma="solar"/>
	    <match lemma="hydro"/>
	    <match lemma="geothermal"/>
	    <match lemma="tidal"/>
          </or>
	  <match lemma="power" tags="n.*">
	    <select lemma="энергия" tags="n.*"/>
	  </match>
	</rule>

И размышления об этом возможно приведут вас к созданию следующих правил , например "electrical power" вариант перевода не электрическая мощность, а электрическая энергия (или еще лучше электроэнергия).

Посмотрите на согласование concordance

Согласование concordance (или "ключевое слово в контексте") это набор предложений, которые сцентрированы на одном слове is a set of sentences where they are centred on a single word (иногда это слово называют "ключевым словом"). Для соглсования мы можете воспользоваться To make a concordance you can use a concordancer (e.g. apertium-concord).

Посмотрите на пример из европарламента:

   represent, to the President and to the Governor of Texas, Mr Bush, who has the power to order a stay
            We should do everything within our We should do everything within our power to force the
                      On the market, the balance of On the market, the balance of power between supply and
                  The scandalous concentration of The scandalous concentration of power in sectors of strategic 
  fact, retaining not only the The Commission is, in fact, retaining not only the power
  to your questions about the nuclear Turning to your questions about the nuclear power stations in
  financing required for improving the degree of efficiency and safety of nuclear power stations in certain 
     have the Mr President, it is clear that the European Union does not have the power to intervene in the
        the balance of I therefore feel we must carefully consider the balance of power that we are in
  the sea's Having spent a lot of time at sea myself I am well aware of the sea's power and destructive force, 
  The Commission is following with interest the planned construction of a nuclear power plant in Akkuyu, Turkey
    siting, construction, commissioning, operation and decommissioning of nuclear power plants in Turkey rests
  a serious risk that some idiot will decide that the new geopolitical balance of power in the Caucasus calls
  in the development of that nuclear If we see in the development of that nuclear power
  build a nuclear If the conclusion is that Turkey is planning to build a nuclear power plant that does not
  none of the upheaval would have been caused had we not acted with parliamentary power to press for changes
     yet the police are being forced into a position where they will not have the power to resist the terrorist
   right to interfere in the formation of a government even though it has assumed power on the basis of
       unusual about what is happening in Austria: there has been a changeover of power following democratic 
          for this Intergovernmental Conference to score a hat trick; that of the power to act, democratic 
  course, we need to create the At the same time of course, we need to create the power to act in order
      The European Union must also have the The European Union must also have the power to act
 
                           ...

Если вы сами делаете согласование concordance, особенно интересны следующие выражения: "nuclear power", "nuclear power station", "nuclear power plant", "parliamentary power", "sea's power", "balance of power", "concentration of power", "power to act", "motive power", "abuse of power", "decision-making power", "power supply", "come into power", "economic power", "power structures", "combined power and heat", "political power".

Используйте параллельный корпус

Вы можете увидеть какой контекст используется в одном переводе, а в другом нет, если использовать параллельный корпус. (Вот пример с английским и испанским из корпуса Европарламента, но вы можете использовать, например Национальный корпус русского языка)

$ paste europarl-v6.es-en.en europarl-v6.es-en.es | grep ' power .* potencia '
Since the Union as a whole is a world-class fishing '''power''' and one of the largest markets for fish produce, ...
Por ser la Unión en conjunto una '''potencia''' pesquera en el nivel mundial y uno de los mayores mercados de productos pesqueros, ...

Второй подход

Второй подход - это создать правила, которые исправляют ошибки перевода, с которыми вы встречаетесь. Чтобы это попробовать, возьмите большой текст (например, статью), и прогоните ее через переводчик.

Например, мы берем this article, перевод достаточно плохой, но есть пару мест, где лексическая выборка могла бы улучшить картину.

MPs who had spent almost six hours debating the state of the UK economy voted by 213 to 79, a majority of 134.
Депутаты, которые израсходовали почти шесть часов обсуждали состояние экономики Великобритании проголосовали 213 до 79, большинство из 134.

В английском языке, "spend" имеет несколько значений, среди которых "to pass time" проводить and "to pay money" расходовать. В данном случае, мы видим что контекст требует вариант перевода проводить потому что речи идет о проведении времени. Итак, мы можем создать следующее правило:

	<rule> <!-- MPs spent almost six hours debating... -->
	  <match lemma="spend" tags="vblex.*">
	    <select lemma="проводить" tags="vblex.*"/>
	  </match>
	  <match/>
	  <match/>
          <or>
	    <match lemma="minute"/>
	    <match lemma="hour"/>
	    <match lemma="year"/>
          </or>
	</rule>

Смотрите также