Norwegian Nynorsk and Norwegian Bokmål

From Apertium
Revision as of 13:37, 11 March 2019 by Unhammer (talk | contribs) (svn)
Jump to navigation Jump to search

Dette er ei side med praktisk informasjon for alle som vil bidra til maskinomsetjingsprosjekta til og frå norsk. Sjå Northern Sámi and Norwegian Bokmål om du er interessert i samisk.

Nyaste offisielle utgåve av språkparet er 1.2.0, ei oppsummering av endringane står i fila NEWS.

Sjå òg artikkelen om apertium-nno-nob.

Vil du bidra?

Det finst mange måtar å bidra til prosjektet.

  • Om du ikkje har så mykje programmeringskunnskap kan du likevel enkelt bidra ved å leggje til forslag til omsetjingar (wiki).
  • Om du har småendringar, ein programretting eller forslag til endringar kan du ta kontakt med t.d. Unhammer eller andre involverte.
  • For å kunne gjere endringar direkte i koden må du ha ein konto på Github, og du må sjekke ut kjeldekoden via git (sjå nedanfor).

Desse er dei viktige filene for prosjektet for maskinomsetjing mellom nynorsk og bokmål:

Les òg sida Contributing to an existing pair, som inneheld mykje nyttig informasjon.

Merk at oppslaga (<e>) kan vere merka med ein restriksjon, <e r="LR">, som viser at oppslaget vil bli analysert, men ikkje generert (dette kan vere nyttig med t.d. klammeformer).

Installasjon

  • Sjå /Installasjon viss du vil installere nyaste utgåve av apertium-nno-nob, og sjølve apertium osb.
  • Generell installasjonsinformasjon finn du på Installation

Statistikk og status

For ordbøkene:

Språk # @ / (bidix) / (gen) Dekning på Wikipedia [#@/] på 20000 linjer frå Wikipedia
Nynorsk 0 0 0 0 88,9 % 0
Bokmål 0 0 0 0 90,0 % 0

Dekninga med samansetjingsanalyse av substantiv på bokmålswikipedia er: 91,6 %

Dei tre første kolonnene får du vha. skriptet dev/testvoc.sh. Teikna #, /, @ og * er forklart på sida Apertium stream format. Skriptet dev/coverage.sh gir dekning. Feilkoder i korpus får du ved å køyre cat /korpora/nb.txt | sed 's/[@#]/_/g'| fold | head -n 20000 | apertium-nb-nn | ack '[@#]' (evt. grep -c), og omvendt. Korpusa er nnwiki-20090119-pages-articles.xml.bz2 og nowiki-20090108-pages-articles.xml.bz2 (sjå download.wikimedia.org).

Lister over kor mange lemma kvar ordbok har:

Github har ei side der du kan sjå nyaste endringar i apertium-nno-nob.

WER-test 28/8 2009

diff på maskinomsetjing og redigert versjon

Statistics about input files
-------------------------------------------------------
Number of words in reference: 3750
Number of words in test: 3736
Number of unknown words (marked with a star) in test: 653
Percentage of unknown words: 17.48 %

Results when removing unknown-word marks (stars)
-------------------------------------------------------
Edit distance: 400
Word error rate (WER): 10.71 %
Number of position-independent word errors: 343
Position-independent word error rate (PER): 9.18 %

Results when unknown-word marks (stars) are not removed
-------------------------------------------------------
Edit distance: 824
Word Error Rate (WER): 22.06 %
Number of position-independent word errors: 769
Position-independent word error rate (PER): 20.58 %

Statistics about the translation of unknown words
-------------------------------------------------------
Number of unknown words which were free rides: 424
Percentage of unknown words that were free rides: 64.93 %

Sjå au orddiff med og utan samansetjingsanalyse.

Prioritert TODO-liste for neste utgåve

  1. Utvide vokabular/bidix (meir dekning)
    1. f.eks. med lt-expand full.nb.dix | cut -d: -f2 | grep '<POS>' | sed 's/<.*//' | uniq > sjekke og hunspell check -d nn sjekke
  2. Fleire høgfrekvente partikkelverb
  3. Fleire ord som treng spesielle eigedomspreposisjonar (kapteinen skipet, motoren i bilen), sjå listene "gen-på" og "gen-i" i nb-nn.t1x
  4. adj.sint-tagging og transferreglar for «meir/mest komplisert» osb.
  5. Konvertere syntaksdelen av Oslo-Bergen-taggaren; me bør vere sikre på om ein NP er subjekt eller objekt (osb.) før me flyttar ein heil NP
  6. Sjekke at omsetjingane følgjer fellesordlista
  7. Prøv PDK/resectioning på CG-en (evaluer mot språkmodell på målspråket eller parallellkorpus)

Variantar og valfridom

apertium-nno-nob har ein alternativ nynorsk-variant: nno_e gir e-form av verb i infinitiv («å sykle»), bruk apertium nob-nno_e.

Det hadde sjølvsagt vore kult å få like mykje valfridom som this, men det krev litt arbeid...

Ein del sideformar og slikt har iallfall fått paradigme på toppen av filene, sjå t.d. «mel_LR_mjøl» i nb.dix; dette paradigmet går på alle ord som kan ha anten mel(k) eller mjøl(k) i seg (hvetemel, hvetemjøl). Med god bruk av slike paradigme bør me vere eitt steg nærare slike enkle innstillingar som Nyno har; i tillegg til at det blir enklare å raskt endre seg til nye normalar. Ein annan fordel er at me slepp å ha ein haug med LR/RL-element i bidix, som raskt blir rotete og vanskeleg å sjekke for konsistens (tidlegare sto det t.d. ein RL på bokmål «mjølk» medan samansette ord med «-mjølk-» i seg ikkje hadde RL).

Multiword expressions, particle verbs

nn generally uses more particle verbs than nb, so going from nb->nn we have to be able to generate these; similarly, from nn->nb we might want to analyse particle verbs.

Generation

  • hun bekjempet ofte fiender => ho kjempa ofte mot fiendar

Multiwords (mwe's) like this are typically represented in apertium like:

 <e lm="kjempe mot">
   <i>kjemp</i><par n="mo/e__vblex"/>
   <p><l><b/>mot</l>
      <r><g><b/>mot</g></r>
   </p>
 </e>

(see the official documentation, pp.46--47.)

'kjempe' is the inflected lemma head (lemh), ' mot' the invariable lemma tail (lemq). However, the problem here is that we may have strings of arbitrary adverbs in between the two (or even objects, for some mwe's), so after bidix has transferred "bekjempet" to "kjempa_mot", transfer needs to turn this into "kjempa(lemh) ofte<adv> mot(lemq)". This looks a bit hacky, but works quite well. See this page for details.

Analysis

  • Geografisk høyrer ikkje Jurafjella til Alpane, men geologisk gjer dei det. => Geografisk tilhører ikke Jurafjellene Alpene, men geologisk gjør de det.

For analysis, dev/apertium-nn-nb.multiwords.t1x has a possible solution.

echo '^Geografisk<adj><posi><nt><sg><ind>$ ^høyre<vblex><sep><pres>$ ^ikkje<adv>$ ^*Jurafjella$ ^til<part><sep>$ ^*Alpane$' | apertium-transfer -n apertium-nn-nb.multiwords.t1x multiwords.bin
^Geografisk<adj><posi><nt><sg><ind>$    ^tilhøyre<vblex><sep><pres>$ ^ikkje<adv>$ ^*Jurafjella$  ^*Alpane$

(although at the moment this puts all superblanks right before the word "tilhøyre")

There is more discussion on the page Separable verbs.

This method is not used at the moment in nn-nb. We may switch to using https://apertium.svn.sourceforge.net/svnroot/apertium/branches/gsoc2010/skh/multiword-reorder later, which implements the same method as a separate module.

Dictionary peculiarities in nn-nb

Formatting

Formatting is as with apertium-dixtools / dix.el (M-x align). (When <e>'s are indented too much this generally signifies that they haven't been thoroughly checked...)

Morphological tags

Regardless of part-of-speech category (adj,n,det.dem,...) and whether all markers are represented we should at least have the same order of markers:

 <CAT>... <GEN><NBR><ART>

eg.

 <det><dem><mf><sg>
 <adj><pst><mf><sg><ind>
 <n><f><sg><def>

In general, gender and definiteness are not specified in plural entries (except for nouns of course).

Nouns

All bokmål feminine gender nouns are doubly listed in the bidix (apertium-nn-nb.nn-nb.dix), like so:

<e>       <p><l>jente<s n="n"/><s n="f"/></l><r>jente<s n="n"/><s n="m"/></r></p></e>
<e r="RL"><p><l>jente<s n="n"/><s n="f"/></l><r>jente<s n="n"/><s n="f"/></r></p></e>

...but with the use of bidix pardefs, it now looks like

<e>       <p><l>jente<s n="n"/><s n="f"/></l><r>jente</r></p><par n="n_m_f"/></e>

(Where Norsk ordbank has duplicate Nynorsk adjective entries with one m/f and one (LR'ed) masculine, I've just deleted the masculine entry.)

Verbs

Verbs with adjective forms have these listed in their paradigms (eg. s/etje__vblex_adj) and have double bidix entries, like so:

<e>	  <p><l>motsetje<s n="vblex"/></l>  <r>motsette<s n="vblex"/></r></p></e>
   <e>	  <p><l>motsetje<s n="adj"/></l>    <r>motsette<s n="adj"/></r></p></e>

(simplified with the bidix pardef vblex_adj.)

The reason for this is simply that the Oslo-Bergen Tagger CG expects it to be like this, so for now this seems the simplest solution (for transfer to other languages it should be relatively easy to change all <adj><pp> to <vblex><pp> -- in any case, the pp and pprs tags are only used by these verbal adjectives, never by "regular" ones).

st-verbs (marked "pstv") sometimes don't have st-verb translations. If we're translating from an st-verb into a non-st-verb, the passive form of that verb is many times a good translation, for this we have the bidix pardef "pstv_pass" so that we get:

  • takast (inf) => taes
  • tekst (pres) => taes
  • tekest (pp) => tatt
  • tokst (prest) => tok

...which is about as good as we can hope for. The bidix entry looks like

<e r="LR"><p><l>takast</l><r>ta</r></p><par n="pstv_pass"/></e>

(since in the other direction we'll just use the Nynorsk lemma ta)

However, some st-verbs translate more fluently into non-passive forms, so here we just have bidix entries that remove the "pstv" tag:

<e r="LR"><p><l>devlast<s n="vblex"/><s n="pstv"/></l><r>krangle<s n="vblex"/></r></p></e>


Restricted multiwords

In some cases we've used simple multiwords to translate (especially some prepositions). However, in some cases these eat up other possible analyses, then we try to restrict them to generation. In monodix we have:

<e r="RL" lm="i dette">  <i>i<b/>dette</i><par n="i__pr"/></e>

In this case, we might want to analyse dette as a determiner rather than a part of a preposition, so the safer route is to not analyse such MWE's since our tagger won't even be given a choice if we do.

Forskjellar frå Norsk ordbank

Visse ord i Norsk ordbank har ulike oppslag, medan dei står under eitt oppslag i omsetjingsordboka til Apertium, t.d. inkluderer -gjere-ord i bidix -gjøre-formene (desse har r="LR" i <pardef n="g/jere__vblex_adj"/> i nn.dix).

  • Verb:
    • -gjere/-gjøre
  • Substantiv:
    • -vit/-vett

...

Store og små bokstavar

Om eit ord typisk har Stor Forbokstav, tek Apertium seg av dette (dvs. «A4-format» blir til «A4-format» sjølv om det står "a4-format" i ordbøkene), her gir me små bokstavar overalt i ordbøkene.

Om eit ord har store bokstavar andre stader enn første bokstav, t.d. «BCG-vaksine», må me trikse litt. Det er ikkje lurt å ha store bokstavar i lemma (<r>), sidan apertium-transfer ikkje ser forskjell på kva for store bokstavar som kjem frå lemma og kva som kjem frå ordet me las (dvs. «Eg», «A4-format» og «BCG-vaksine» er alle representert på same måte i transfer, sjølv om ein i ordboka skreiv «eg» og «a4-format» men «BCG-vaksine»); og apertium-transfer må kunne endre bokstavstorleik når me flyttar rundt på ord:

  • Vaksinens virkning -> Verknaden til vaksinen

er ein vanleg transfer-regel, kor «vaksinen» får liten forbokstav, samstundes vil me gjerne ha

  • BCG-vaksinens virkning -> Verknaden til BCG-vaksinen

men transfer veit ikkje frå input at den store forbokstaven i «BCG-vaksinen» ikkje skal fjernast, transfer sender like godt ut «bcg-vaksine» (som gir # om me har <r>BCG-vaksine</r>).

Difor har me følgjande i ordbøkene:

  <pardef n="Bb"><e r="LR"><i>b</i></e><e r="RL"><p><l>B</l><r>b</r></p></e></pardef>
  <pardef n="Cc"><e r="LR"><i>c</i></e><e r="RL"><p><l>C</l><r>c</r></p></e></pardef>
  <pardef n="Gg"><e r="LR"><i>g</i></e><e r="RL"><p><l>G</l><r>g</r></p></e></pardef>
...
  <e lm="BCG-vaksine">   <par n="Bb"/><par n="Cc"/><par n="Gg"/><i>-vaksin</i><par n="r/e__n"/></e>

Så <r> har berre små bokstavar, men me skriv alltid med store bokstavar på rett plass (om transfer les berre store bokstavar, vil output au vere berre store bokstavar; det går alltid greit å gå frå små til store i output, men ikkje andre vegen).

Enkel WSD / Orddisambiguering

Eg har skrive «wsd» i ein del kommentarar rundt omkring i ordbøkene, t.d. i nn.dix står det

<pardef n="v/ege__vblex">
  <!-- wsd todo -->
...

sidan pardef-en v/ege__vblex er nytta båe for vege_vekt og for vege_veg.

Valens

Paradigmedefinisjonar markert med «wsd» må altså etter kvart endrast for å få unike <r> til bruk i bidix, slik at me iallfall for dei formane som er ulike får disambiguering «gratis», t.d. ved sterke vs svake bøyingar, slepte vs slapp. For det siste paret, der den svake formen er kausativ-transitiv medan den sterke er intransitiv, kan me ha følgjande pardef:

<pardef n="sl/eppe__vblex">
  <e>       <p><l>epp</l>   <r>eppe<s n="vblex"/><s n="iv"/><s n="imp"/></r></p></e>
  <e r="LR"><p><l>epp</l>   <r>eppe<s n="vblex"/><s n="tv"/><s n="imp"/></r></p></e>

  <e r="LR"><p><l>eppa</l>  <r>eppe<s n="vblex"/><s n="iv"/><s n="inf"/></r></p></e>
  <e r="LR"><p><l>eppa</l>  <r>eppe<s n="vblex"/><s n="tv"/><s n="inf"/></r></p></e>
  <e>       <p><l>eppe</l>  <r>eppe<s n="vblex"/><s n="iv"/><s n="inf"/></r></p></e>
  <e r="LR"><p><l>eppe</l>  <r>eppe<s n="vblex"/><s n="tv"/><s n="inf"/></r></p></e>

  <e>       <p><l>eppast</l><r>eppe<s n="vblex"/><s n="tv"/><s n="inf"/><s n="pst"/></r></p></e>
  <e r="LR"><p><l>eppast</l><r>eppe<s n="vblex"/><s n="iv"/><s n="inf"/><s n="pst"/></r></p></e>

  <e>       <p><l>oppe</l>  <r>eppe<s n="vblex"/><s n="iv"/><s n="pp"/></r></p></e>
  <e r="LR"><p><l>oppi</l>  <r>eppe<s n="vblex"/><s n="iv"/><s n="pp"/></r></p></e>
  <e>       <p><l>eppt</l>  <r>eppe<s n="vblex"/><s n="tv"/><s n="pp"/></r></p></e>

  <e>       <p><l>epp</l>   <r>eppe<s n="vblex"/><s n="iv"/><s n="pres"/></r></p></e>
  <e>       <p><l>epper</l> <r>eppe<s n="vblex"/><s n="tv"/><s n="pres"/></r></p></e>

  <e>       <p><l>app</l>   <r>eppe<s n="vblex"/><s n="iv"/><s n="pret"/></r></p></e>
  <e>       <p><l>eppte</l> <r>eppe<s n="vblex"/><s n="tv"/><s n="pret"/></r></p></e>
</pardef>

Infinitivsformane vil jo enno vere tvitydige. Slike valenskodar bør me få inn i ordbøkene. men me må finne ut kva for kodar me skal nytte. NorKompLeks gir valensannotasjon (argumentstruktur) for ganske mange ord, men me treng nok ikkje så mange kodar når det berre er snakk om å få rett omsetjing i bidix. Til CG kan kodane vere nyttige, men då må me nok omdefinere ein del SET i rlx-filene.

Annan homonymi

Me kan kanskje nytte slr, som i apertium-sme-nob, til å skilje homonym (homografar), kor CG gjer orddisambiguering.

CG: OBT

Konvertering

Føringsgrammatikken (CG) er konvertert frå Oslo-Bergen-taggaren. Me har ulike tags (sjå Norsk ordbank), hovudsakleg er det eit ein-til-ein-forhold, men visse stader er det meir komplisert (t.d. er pers i OBT representert som <p1>, <p2> eller <p3> i Apertium, medan <p1> i OBT blir pers 1). Fila dev/OBT-to-Apertium.sh gjorde størsteparten av konverteringa.

Store og små bokstavar

Sidan lt-proc representerer store bokstavar frå ordformen i sjølve lemma (baseform), måtte me før ha ri etter alle ord med små bokstavar i CG-filane, dvs. der OBT hadde "<den>" hadde me "<den>"ri (ri var ikkje nytta i OBT frå før av). Så om me las «Den var her.» ville lt-proc gi ^Den/Den<det>..., utan ri ville regelen for ordet «den» ikkje køyrt.

Dette gjorde CG-en 6 gonger treigare... men no køyrer me lt-proc og cg-proc med -w; då har me ordboksform på lemma (^Den/den<...>$ ^var/var<...>$) fram til CG har køyrt, medan cg-proc sørger for at me så legg overflateform på lemma (^Den/Den<...>$ ^var/var<...>$), og me treng ikkje ri på alle strengene.

Architecture of CG files

Each morphological disambiguator (apertium-nn-nb.nn-nb.rlx and apertium-nn-nb.nb-nn.rlx) has four domains, each with select rules before remove rules. From the Nynorsk CG, with line numbers:

1053:CONSTRAINTS
1054:## select domain
...
4524:#CONSTRAINTS
4525:## remove domain
...
7162:CONSTRAINTS
7163:## select ndomain
...
42926:#CONSTRAINTS
42927:## remove ndomain
...
50186:CONSTRAINTS
50187:## select domain heur
...
50595:#CONSTRAINTS
50596:## remove domain heur
...
50738:CONSTRAINTS
50739:## select ndomain heur
...
52939:#CONSTRAINTS
52940:## remove ndomain heur

There are no word-specific rules in ndomains, only domains. The last half is "heuristic" (ie. safer rules get tried first).

Syntaks

Syntaksfilene er ikkje konvertert enno.

Desse er meint å køyre etter morfologisk disambiguering; i Apertium vil dei altså køyre slik:

... | cg-proc nn-nb.rlx.bin | cg-proc -w nn-nb.syntax.rlx.bin | apertium-tagger -g nn-nb.proc | ...

MAP-reglane i syntaksen legg til nye tags, som blir fjerna igjen i apertium-transfer.

Om me har taggar som @OBJ, kan dei nyttast til t.d.:

  • Om vinteren selges nok kyrne => Om vinteren blir nok kyrne selt

ved å matche

	<pattern-item n="vblexprespass"/>
	<pattern-item n="adv"/>
	<pattern-item n="@obj"/>

og

  • Om vinteren selges nok de gamle kyrne => Om vinteren blir nok dei gamle kyrne selt

ved

	<pattern-item n="vblexprespass"/>
	<pattern-item n="adv"/>
	<pattern-item n="@det>"/>
	<pattern-item n="@adj>"/>
	<pattern-item n="@obj"/>

Testing

Ressursar


Further reading