Difference between revisions of "Norwegian Nynorsk and Norwegian Bokmål"

Latest revision as of 14:58, 17 March 2026

Dette er ei side med praktisk informasjon for alle som vil bidra til maskinomsetjingsprosjekta til og frå norsk. Sjå Northern Sámi and Norwegian Bokmål om du er interessert i samisk.

Nyaste offisielle utgåve av språkparet er 1.6.0 (sjå https://github.com/apertium/apertium-nno-nob/releases ), ei oppsummering av endringane står i fila NEWS.

apertium-nno-nob er sponsa av:

Google Summer of Code (2009, første utgåve, v0.6.0)
Wikimedia Foundation (2015–2016, som ein del av Scandinavian_MT_project, v1.1.0)
Nynorsk Pressekontor og Kulturdepartementet (2018–2026, v1.6.0)

Sjå òg artikkelen (2009) om apertium-nno-nob.

Test nyaste utgåve på beta.apertium.org.

Vil du bidra?[edit]

Det finst mange måtar å bidra til prosjektet.

Om du ikkje har så mykje programmeringskunnskap kan du likevel enkelt bidra ved å leggje til forslag til omsetjingar (wiki).

Om du har småendringar, ein programretting eller forslag til endringar kan du ta kontakt med t.d. Unhammer eller andre involverte.

For å kunne gjere endringar direkte i koden må du ha ein konto på Github, og du må sjekke ut kjeldekoden via git (sjå nedanfor).

Desse er dei viktige filene for prosjektet for maskinomsetjing mellom nynorsk og bokmål:

Omsetjingsordboka / transferleksikonet:
- apertium-nno-nob.nno-nob.dix
Dei einspråklege ordbøkene (som gir morfologiske analysatorar/generatorar):
- apertium-nno.nno.dix
- apertium-nob.nob.dix
CG-reglar for morfologisk disambiguering:
- apertium-nno.nno.rlx
- apertium-nob.nob.rlx

Les òg sida Contributing to an existing pair, som inneheld mykje nyttig informasjon.

Merk at oppslaga (<e>) kan vere merka med ein restriksjon, <e r="LR">, som viser at oppslaget vil bli analysert, men ikkje generert (dette kan vere nyttig med t.d. klammeformer).

Installasjon[edit]

Sjå /Installasjon viss du vil installere nyaste utgåve av apertium-nno-nob, og sjølve apertium osb.
Generell installasjonsinformasjon finn du på Installation

Statistikk og status[edit]

Github har ei side der du kan sjå nyaste endringar i apertium-nno-nob.

Samanlikning med store språkmodellar, 2024[edit]

Nomeland og Risåsen (2024) gjorde ei samanlikning med ymse fine-tuned LLMs:

Metric	nb-nn Average	nb-nn Median	nb-nn SD	nn-nb Average	nn-nb Median	nn-nb SD
BLEU	0.817	0.866	0.208	0.898	1.0	0.155
SacreBLEU	0.786	0.983	0.320	0.814	1.0	0.306
METEOR	0.932	0.952	0.088	0.964	0.999	0.058
BERTScore	0.984	0.995	0.025	0.987	1.0	0.022
COMET	0.964	0.972	0.029	0.954	0.973	0.055

(frå side 47)

Den automatiske evalueringa viser at apertium-nno-nob er konkurransedyktig med fine-tuned normistral/nor-gpt/norwai-mistral etc. – dei er så nære at for alle metrikkane, så er snitt av Apertium godt innanfor snitt±SD av den beste LLM-en.

Forskjellane er lettare å sjå på feiltypar. Når apertium gjer feil er det vanlegvis svært gjenkjenneleg, av typen ugrammatisk syntaks eller samansetjingar som ikkje fungerer. Når LLM-en gjer feil, ser det ofte svært tilforlateleg ut, og kan vera vanskelegare å oppdaga.

WER på NTB-nyheiter 2018-08-27[edit]

På NTB-nyheiter har apertium-nno-nob ein median-WER på under 5 %.

Dette er frå ein test på 1221 nyheitsartiklar med korrektur, der me finn WER på kvar enkeltartikkel og så tar median (og ulike typar snitt) av WER:

 date                 | hmean   | gmean   | median   | amean   | stddev   ‖
 2019-08-01-editinput | 2.81    | 2.71    | 3.95     | 4.98    | 4.56     ‖
 2019-08-27_e0bab1b   | 3.07    | 3.22    | 4.37     | 5.15    | 4.24     ‖

Linja 2019-08-01-editinput er WER på «editinput», dvs. input til korrekturane frå apertium, der editinput blei laga av ulike apertium-utgåver frå ca. august 2019.

Linja 2019-08-27_e0bab1b er samanlikning mellom dei korrekturane og ei ny omsetjing (med versjonane [1] [2] [3]).

Dekning på ordbøkene[edit]

Språk	#	@	/ (bidix)	/ (gen)	Dekning på Wikipedia	[#@/] på 20000 linjer frå Wikipedia
Nynorsk	0	0	0	0	88,9 %	0
Bokmål	0	0	0	0	90,0 %	0

Dekninga med samansetjingsanalyse av substantiv på bokmålswikipedia er: 91,6 %

Dei tre første kolonnene får du vha. skriptet dev/testvoc.sh. Teikna #, /, @ og * er forklart på sida Apertium stream format. Skriptet dev/coverage.sh gir dekning. Feilkoder i korpus får du ved å køyre cat /korpora/nb.txt | sed 's/[@#]/_/g'| fold | head -n 20000 | apertium-nb-nn | ack '[@#]' (evt. grep -c), og omvendt. Korpusa er nnwiki-20090119-pages-articles.xml.bz2 og nowiki-20090108-pages-articles.xml.bz2 (sjå download.wikimedia.org).

Lister over kor mange lemma kvar ordbok har:

WER-test 2009-08-28[edit]

diff på maskinomsetjing og redigert versjon

Statistics about input files
-------------------------------------------------------
Number of words in reference: 3750
Number of words in test: 3736
Number of unknown words (marked with a star) in test: 653
Percentage of unknown words: 17.48 %

Results when removing unknown-word marks (stars)
-------------------------------------------------------
Edit distance: 400
Word error rate (WER): 10.71 %
Number of position-independent word errors: 343
Position-independent word error rate (PER): 9.18 %

Results when unknown-word marks (stars) are not removed
-------------------------------------------------------
Edit distance: 824
Word Error Rate (WER): 22.06 %
Number of position-independent word errors: 769
Position-independent word error rate (PER): 20.58 %

Statistics about the translation of unknown words
-------------------------------------------------------
Number of unknown words which were free rides: 424
Percentage of unknown words that were free rides: 64.93 %

Sjå au orddiff med og utan samansetjingsanalyse.

Pipeline[edit]

Current pipeline for nob-nno direction

Generell TODO-liste[edit]

Utvide vokabular/bidix (meir dekning)
1. f.eks. med lt-expand full.nb.dix | cut -d: -f2 | grep '<POS>' | sed 's/<.*//' | uniq > sjekke og hunspell check -d nn sjekke
Fleire høgfrekvente partikkelverb
Fleire ord som treng spesielle eigedomspreposisjonar (kapteinen på skipet, motoren i bilen), sjå listene "gen-på" og "gen-i" i nb-nn.t1x
Konvertere syntaksdelen av Oslo-Bergen-taggaren; me bør vere sikre på om ein NP er subjekt eller objekt (osb.) før me flyttar ein heil NP
Ny variant basert på fellesordlista (ev. la -a-infinitivsvarianten følgja den)
Prøv PDK/resectioning på CG-en (evaluer mot språkmodell på målspråket eller parallellkorpus)

Variantar og valfridom[edit]

apertium-nno-nob bruker systemet skissert på Dialectal_or_standard_variation#Overlapping_variants for å støtta den rike valfridomen i nynorsk.

Tidlegare var det berre to brukarval: -a vs -e i infinitiv, og vi vs me. Dette gav totalt 2^2=4 moglege normar for omsetjaren.

Per i dag (17.mars 2026) er det 161 brukarval. Dei dekker m.a.

enkeltord (vi vs me, medan vs mens)
generelle lydendringar (nød/løp/død/… vs naud/laup/daud/…, kristendommen/bispedømmet/… vs kristendomen/bispedømet/…)
kjønn (apa/lova vs apen/loven)
teiknsetjing
sitathandtering

Prøv «Normval»-knappen på https://beta.apertium.org/index.nno.html#?dir=nob-nno

Nokre brukarval kan ein i tillegg skru av/på for enkeltord, t.d. kan ein velja hokjønn «apa» men hankjønn «loven». Det gjeld per i dag 206 ord.

Imagine a piano keyboard. Um, 88 keys, only 88, and yet, and yet, hundreds of new melodies, new tunes, new harmonies are being composed upon hundreds of different keyboards every day, in Dorset alone. Now, our language, Tiger, our language. Hundreds of thousands of available words, frillions of legitimate new ideas... Hm? So that I can say the following sentence and be utterly sure that nobody has ever said it before in the history of human communication: "Hold the newsreader's nose squarely, waiter, or friendly milk will countermand my trousers."
–S. Fry

Sjølv om me ser bort frå moglegheita for å skru av/på reglar for enkeltord, kan me per i dag definera 2^161=2923003274661805836407369665432566039311865085952 moglege skriftnormar i omsetjaren, litt fleire enn dei fire me hadde før.

Multiword expressions, particle verbs[edit]

nn generally uses more particle verbs than nb, so going from nb->nn we have to be able to generate these; similarly, from nn->nb we might want to analyse particle verbs.

Generation[edit]

hun bekjempet ofte fiender => ho kjempa ofte mot fiendar

Multiwords (mwe's) like this are typically represented in apertium like:

 <e lm="kjempe mot">
   <i>kjemp</i><par n="mo/e__vblex"/>
   <p><l><b/>mot</l>
      <r><g><b/>mot</g></r>
   </p>
 </e>

(see the official documentation, pp.46--47.)

'kjempe' is the inflected lemma head (lemh), ' mot' the invariable lemma tail (lemq). However, the problem here is that we may have strings of arbitrary adverbs in between the two (or even objects, for some mwe's), so after bidix has transferred "bekjempet" to "kjempa_mot", transfer needs to turn this into "kjempa(lemh) ofte<adv> mot(lemq)". This looks a bit hacky, but works quite well. See this page for details.

Analysis[edit]

Geografisk høyrer ikkje Jurafjella til Alpane, men geologisk gjer dei det. => Geografisk tilhører ikke Jurafjellene Alpene, men geologisk gjør de det.

For analysis, dev/apertium-nn-nb.multiwords.t1x has a possible solution.

echo '^Geografisk<adj><posi><nt><sg><ind>$ ^høyre<vblex><sep><pres>$ ^ikkje<adv>$ ^*Jurafjella$ ^til<part><sep>$ ^*Alpane$' | apertium-transfer -n apertium-nn-nb.multiwords.t1x multiwords.bin
^Geografisk<adj><posi><nt><sg><ind>$    ^tilhøyre<vblex><sep><pres>$ ^ikkje<adv>$ ^*Jurafjella$  ^*Alpane$

(although at the moment this puts all superblanks right before the word "tilhøyre")

There is more discussion on the page Separable verbs.

This method is not used at the moment in nn-nb. We may switch to using https://apertium.svn.sourceforge.net/svnroot/apertium/branches/gsoc2010/skh/multiword-reorder later, which implements the same method as a separate module.

Dictionary peculiarities in nn-nb[edit]

Formatting[edit]

Formatting is as with apertium-dixtools / dix.el (M-x align). (When <e>'s are indented too much this generally signifies that they haven't been thoroughly checked...)

Morphological tags[edit]

Regardless of part-of-speech category (adj,n,det.dem,...) and whether all markers are represented we should at least have the same order of markers:

 <CAT>... <GEN><NBR><ART>

eg.

 <det><dem><mf><sg>
 <adj><pst><mf><sg><ind>
 <n><f><sg><def>

In general, gender and definiteness are not specified in plural entries (except for nouns of course).

Nouns[edit]

All bokmål feminine gender nouns are doubly listed in the bidix (apertium-nn-nb.nn-nb.dix), like so:

<e>       <p><l>jente<s n="n"/><s n="f"/></l><r>jente<s n="n"/><s n="m"/></r></p></e>
<e r="RL"><p><l>jente<s n="n"/><s n="f"/></l><r>jente<s n="n"/><s n="f"/></r></p></e>

...but with the use of bidix pardefs, it now looks like

<e>       <p><l>jente<s n="n"/><s n="f"/></l><r>jente</r></p><par n="n_m_f"/></e>

(Where Norsk ordbank has duplicate Nynorsk adjective entries with one m/f and one (LR'ed) masculine, I've just deleted the masculine entry.)

Verbs[edit]

Verbs with adjective forms have these listed in their paradigms (eg. s/etje__vblex_adj) and have double bidix entries, like so:

<e>	  <p><l>motsetje<s n="vblex"/></l>  <r>motsette<s n="vblex"/></r></p></e>
   <e>	  <p><l>motsetje<s n="adj"/></l>    <r>motsette<s n="adj"/></r></p></e>

(simplified with the bidix pardef vblex_adj.)

The reason for this is simply that the Oslo-Bergen Tagger CG expects it to be like this, so for now this seems the simplest solution (for transfer to other languages it should be relatively easy to change all <adj><pp> to <vblex><pp> -- in any case, the pp and pprs tags are only used by these verbal adjectives, never by "regular" ones).

st-verbs (marked "pstv") sometimes don't have st-verb translations. If we're translating from an st-verb into a non-st-verb, the passive form of that verb is many times a good translation, for this we have the bidix pardef "pstv_pass" so that we get:

takast (inf) => taes
tekst (pres) => taes
tekest (pp) => tatt
tokst (prest) => tok

...which is about as good as we can hope for. The bidix entry looks like

<e r="LR"><p><l>takast</l><r>ta</r></p><par n="pstv_pass"/></e>

(since in the other direction we'll just use the Nynorsk lemma ta)

However, some st-verbs translate more fluently into non-passive forms, so here we just have bidix entries that remove the "pstv" tag:

<e r="LR"><p><l>devlast<s n="vblex"/><s n="pstv"/></l><r>krangle<s n="vblex"/></r></p></e>

Restricted multiwords[edit]

In some cases we've used simple multiwords to translate (especially some prepositions). However, in some cases these eat up other possible analyses, then we try to restrict them to generation. In monodix we have:

<e r="RL" lm="i dette">  <i>i<b/>dette</i><par n="i__pr"/></e>

In this case, we might want to analyse dette as a determiner rather than a part of a preposition, so the safer route is to not analyse such MWE's since our tagger won't even be given a choice if we do.

Forskjellar frå Norsk ordbank[edit]

Visse ord i Norsk ordbank har ulike oppslag, medan dei står under eitt oppslag i omsetjingsordboka til Apertium, t.d. inkluderer -gjere-ord i bidix -gjøre-formene (desse har r="LR" i <pardef n="g/jere__vblex_adj"/> i nn.dix).

Verb:
- -gjere/-gjøre
Substantiv:
- -vit/-vett

...

Store og små bokstavar[edit]

Om eit ord typisk har Stor Forbokstav, tek Apertium seg av dette (dvs. «A4-format» blir til «A4-format» sjølv om det står "a4-format" i ordbøkene), her gir me små bokstavar overalt i ordbøkene.

Om eit ord har store bokstavar andre stader enn første bokstav, t.d. «BCG-vaksine», må me trikse litt. Det er ikkje lurt å ha store bokstavar i lemma (<r>), sidan apertium-transfer ikkje ser forskjell på kva for store bokstavar som kjem frå lemma og kva som kjem frå ordet me las (dvs. «Eg», «A4-format» og «BCG-vaksine» er alle representert på same måte i transfer, sjølv om ein i ordboka skreiv «eg» og «a4-format» men «BCG-vaksine»); og apertium-transfer må kunne endre bokstavstorleik når me flyttar rundt på ord:

Vaksinens virkning -> Verknaden til vaksinen

er ein vanleg transfer-regel, kor «vaksinen» får liten forbokstav, samstundes vil me gjerne ha

BCG-vaksinens virkning -> Verknaden til BCG-vaksinen

men transfer veit ikkje frå input at den store forbokstaven i «BCG-vaksinen» ikkje skal fjernast, transfer sender like godt ut «bcg-vaksine» (som gir # om me har <r>BCG-vaksine</r>).

Difor har me følgjande i ordbøkene:

  <pardef n="Bb"><e r="LR"><i>b</i></e><e r="RL"><p><l>B</l><r>b</r></p></e></pardef>
  <pardef n="Cc"><e r="LR"><i>c</i></e><e r="RL"><p><l>C</l><r>c</r></p></e></pardef>
  <pardef n="Gg"><e r="LR"><i>g</i></e><e r="RL"><p><l>G</l><r>g</r></p></e></pardef>
...
  <e lm="BCG-vaksine">   <par n="Bb"/><par n="Cc"/><par n="Gg"/><i>-vaksin</i><par n="r/e__n"/></e>

Så <r> har berre små bokstavar, men me skriv alltid med store bokstavar på rett plass (om transfer les berre store bokstavar, vil output au vere berre store bokstavar; det går alltid greit å gå frå små til store i output, men ikkje andre vegen).

Enkel WSD / Orddisambiguering[edit]

Eg har skrive «wsd» i ein del kommentarar rundt omkring i ordbøkene, t.d. i nn.dix står det

<pardef n="v/ege__vblex">
  <!-- wsd todo -->
...

sidan pardef-en v/ege__vblex er nytta båe for vege_vekt og for vege_veg.

Valens[edit]

Paradigmedefinisjonar markert med «wsd todo» må etter kvart endrast for å få unike <r> til bruk i bidix, slik at me iallfall for dei formane som er ulike får disambiguering «gratis». Ved t.d. sterke vs svake bøyingar, slepte vs slapp. For sleppe, der den svake formen er kausativ-transitiv medan den sterke er intransitiv, har me følgjande pardef:

<pardef n="sl/eppe__vblex_adj" c="-er/-te/-t is ¹ trans; -epp/-app/-oppe is intrans">
  <e>       <p><l>oppen</l>  <r>eppe<s n="adj"/><s n="pp"/><s n="f"/><s n="sg"/><s n="ind"/></r></p></e>
  <e>       <p><l>oppen</l>  <r>eppe<s n="adj"/><s n="pp"/><s n="mf"/><s n="sg"/><s n="ind"/></r></p></e>
  <e>       <p><l>oppe</l>   <r>eppe<s n="adj"/><s n="pp"/><s n="nt"/><s n="sg"/><s n="ind"/></r></p></e>
  <e r="LR"><p><l>oppi</l>   <r>eppe<s n="adj"/><s n="pp"/><s n="nt"/><s n="sg"/><s n="ind"/></r></p></e>
  <e>       <p><l>opne</l>   <r>eppe<s n="adj"/><s n="pp"/><s n="pl"/></r></p></e>
  <e>       <p><l>opne</l>   <r>eppe<s n="adj"/><s n="pp"/><s n="sg"/><s n="def"/></r></p></e>
  <e>       <p><l>eppande</l><r>eppe<s n="adj"/><s n="pprs"/></r></p></e>
  <e>       <p><l>epp</l>    <r>eppe<s n="vblex"/><s n="imp"/></r></p></e>
  <e>       <p><l>epp</l>    <r>eppe</r></p><par n="a_vs_e__vblex_inf"/></e>
  <e>       <p><l>eppast</l> <r>eppe<s n="vblex"/><s n="inf"/><s n="pasv"/></r></p></e>
  <e>       <p><l>oppe</l>   <r>eppe<s n="vblex"/><s n="pp"/></r></p></e>
  <e r="LR"><p><l>oppi</l>   <r>eppe<s n="vblex"/><s n="pp"/></r></p></e>
  <e>       <p><l>epp</l>    <r>eppe<s n="vblex"/><s n="pres"/></r></p></e>
  <e>       <p><l>app</l>    <r>eppe<s n="vblex"/><s n="pret"/></r></p></e>

  <e>       <p><l>eppt</l>   <r>eppe¹<s n="adj"/><s n="pp"/><s n="mf"/><s n="sg"/><s n="ind"/></r></p></e>
  <e>       <p><l>eppt</l>   <r>eppe¹<s n="adj"/><s n="pp"/><s n="nt"/><s n="sg"/><s n="ind"/></r></p></e>
  <e>       <p><l>eppte</l>  <r>eppe¹<s n="adj"/><s n="pp"/><s n="pl"/></r></p></e>
  <e>       <p><l>eppte</l>  <r>eppe¹<s n="adj"/><s n="pp"/><s n="sg"/><s n="def"/></r></p></e>
  <e>       <p><l>eppande</l><r>eppe¹<s n="adj"/><s n="pprs"/></r></p></e>
  <e>       <p><l>epp</l>    <r>eppe¹<s n="vblex"/><s n="imp"/></r></p></e>
  <e>       <p><l>epp</l>    <r>eppe¹</r></p><par n="a_vs_e__vblex_inf"/></e>
  <e>       <p><l>eppast</l> <r>eppe¹<s n="vblex"/><s n="inf"/><s n="pasv"/></r></p></e>
  <e>       <p><l>eppt</l>   <r>eppe¹<s n="vblex"/><s n="pp"/></r></p></e>
  <e>       <p><l>epper</l>  <r>eppe¹<s n="vblex"/><s n="pres"/></r></p></e>
  <e>       <p><l>eppte</l>  <r>eppe¹<s n="vblex"/><s n="pret"/></r></p></e>
</pardef>

CG: OBT[edit]

Konvertering[edit]

Føringsgrammatikken (CG) er konvertert frå Oslo-Bergen-taggaren. Me har ulike tags (sjå Norsk ordbank), hovudsakleg er det eit ein-til-ein-forhold, men visse stader er det meir komplisert (t.d. er pers i OBT representert som <p1>, <p2> eller <p3> i Apertium, medan <p1> i OBT blir pers 1). Fila dev/OBT-to-Apertium.sh gjorde størsteparten av konverteringa.

Store og små bokstavar[edit]

Sidan lt-proc representerer store bokstavar frå ordformen i sjølve lemma (baseform), måtte me før ha ri etter alle ord med små bokstavar i CG-filane, dvs. der OBT hadde "<den>" hadde me "<den>"ri (ri var ikkje nytta i OBT frå før av). Så om me las «Den var her.» ville lt-proc gi ^Den/Den<det>..., utan ri ville regelen for ordet «den» ikkje køyrt.

Dette gjorde CG-en 6 gonger treigare... men no køyrer me lt-proc og cg-proc med -w; då har me ordboksform på lemma (^Den/den<...>$ ^var/var<...>$) fram til CG har køyrt, medan cg-proc sørger for at me så legg overflateform på lemma (^Den/Den<...>$ ^var/var<...>$), og me treng ikkje ri på alle strengene.

Architecture of CG files[edit]

Each morphological disambiguator (apertium-nn-nb.nn-nb.rlx and apertium-nn-nb.nb-nn.rlx) has four domains, each with select rules before remove rules. From the Nynorsk CG, with line numbers:

1053:CONSTRAINTS
1054:## select domain
...
4524:#CONSTRAINTS
4525:## remove domain
...
7162:CONSTRAINTS
7163:## select ndomain
...
42926:#CONSTRAINTS
42927:## remove ndomain
...
50186:CONSTRAINTS
50187:## select domain heur
...
50595:#CONSTRAINTS
50596:## remove domain heur
...
50738:CONSTRAINTS
50739:## select ndomain heur
...
52939:#CONSTRAINTS
52940:## remove ndomain heur

There are no word-specific rules in ndomains, only domains. The last half is "heuristic" (ie. safer rules get tried first).

Syntaks[edit]

Syntaksfilene er ikkje konvertert enno.

Desse er meint å køyre etter morfologisk disambiguering; i Apertium vil dei altså køyre slik:

... | cg-proc nn-nb.rlx.bin | cg-proc -w nn-nb.syntax.rlx.bin | apertium-tagger -g nn-nb.proc | ...

MAP-reglane i syntaksen legg til nye tags, som blir fjerna igjen i apertium-transfer.

Om me har taggar som @OBJ, kan dei nyttast til t.d.:

Om vinteren selges nok kyrne => Om vinteren blir nok kyrne selt

ved å matche

	<pattern-item n="vblexprespass"/>
	<pattern-item n="adv"/>
	<pattern-item n="@obj"/>

og

Om vinteren selges nok de gamle kyrne => Om vinteren blir nok dei gamle kyrne selt

ved

	<pattern-item n="vblexprespass"/>
	<pattern-item n="adv"/>
	<pattern-item n="@det>"/>
	<pattern-item n="@adj>"/>
	<pattern-item n="@obj"/>

Testing[edit]

Ressursar[edit]

Norsk ordbank
North Germanic languages
Oslo-Bergen-taggaren CG-reglar (bokmål, nynorsk) + leksikon (binærfil) (sjå òg lispkoden til samansetjingsanalysen)
Oslo-Bergen-taggaren (heimeside)
Gode nynorskord på Wikipedia – fin liste over gode omsetjingar frå bokmål til nynorsk
Synonymer.no
Nynorsk.org – «valfridom er oppskrytt»
Nyord i norsk (søk etter t.d. pleonasme, ulike typar samansetjing, anglisisme, komposisjonsfuge (epentese), osb.)

@@ Line 1: / Line 1: @@
 {{TOCD}}
-Dette er ei side med praktisk informasjon for alle som vil bidra til maskinomsetjingsprosjekta til og frå norsk.
+Dette er ei side med praktisk informasjon for alle som vil bidra til maskinomsetjingsprosjekta til og frå norsk. Sjå [[Northern Sámi and Norwegian Bokmål]] om du er interessert i samisk.
+Nyaste offisielle utgåve av språkparet er 1.6.0 (sjå https://github.com/apertium/apertium-nno-nob/releases ), ei oppsummering av endringane står i fila [https://github.com/apertium/apertium-nno-nob/blob/master/NEWS NEWS].
+apertium-nno-nob er sponsa av:
+* Google Summer of Code (2009, første utgåve, v0.6.0)
+* Wikimedia Foundation (2015–2016, som ein del av [[Scandinavian_MT_project]], v1.1.0)
+* Nynorsk Pressekontor og Kulturdepartementet (2018–2026, v1.6.0)
+Sjå òg [http://hdl.handle.net/10045/12025 artikkelen (2009) om apertium-nno-nob].
+Test nyaste utgåve på [https://beta.apertium.org/index.nno.html#?dir=nob-nno&q=Min%20luftputeb%C3%A5t%20er%20full%20av%20%C3%A5ler beta.apertium.org].
 == Vil du bidra? ==
@@ Line 7: / Line 18: @@
 * Om du ikkje har så mykje programmeringskunnskap kan du likevel enkelt bidra ved å leggje til [http://nn.wikipedia.org/wiki/Wikipedia:Wikiprosjekt_Maskinomsetjing_fr%C3%A5_bokm%C3%A5l/Manglande_omsetjingar forslag til omsetjingar] (wiki).
-* Om du har småendringar, ein programretting eller forslag til endringar kan du ta kontakt med t.d. [[User:Unhammer|Unhammer]] eller andre involverte.
+* Om du har småendringar, ein programretting eller forslag til endringar kan du ta kontakt med t.d. [[User:Unhammer|Unhammer]] eller [[Contact|andre involverte]].
-* For å kunne gjere endringar direkte i koden må du ha ein [http://sourceforge.net/account/registration/ konto på SourceForge], og du må sjekke ut kjeldekoden via [[SVN]] (sjå nedanfor).
+* For å kunne gjere endringar direkte i koden må du ha ein [https://github.com/ konto på Github], og du må sjekke ut kjeldekoden via [[Using git|git]] (sjå nedanfor).
 Desse er dei viktige filene for prosjektet for maskinomsetjing mellom nynorsk og bokmål:
- [http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-nn-nb/apertium-nn-nb.nb.dix apertium-nn-nb.nb.dix]
- [http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-nn-nb/apertium-nn-nb.nn-nb.dix apertium-nn-nb.nn-nb.dix]
- [http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-nn-nb/apertium-nn-nb.nn.dix apertium-nn-nb.nn.dix]
- [http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-nn-nb/apertium-nn-nb.nn-nb.rlx apertium-nn-nb.nn-nb.rlx]
- [http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-nn-nb/apertium-nn-nb.nb-nn.rlx apertium-nn-nb.nb-nn.rlx]
+* Omsetjingsordboka / transferleksikonet:
-Filene <code>apertium-nn-nb.nb.dix</code> og <code>apertium-nn-nb.nn.dix</code> («ordbøkene») inneheld dei morfologiske parsarane/generatorane.
+** [https://github.com/apertium/apertium-nno-nob/blob/master/apertium-nno-nob.nno-nob.dix apertium-nno-nob.nno-nob.dix]
-Fila  <code>apertium-nn-nb.nn-nb.dix</code> er transferleksikonet («omsetjingsordboka»).
+* Dei einspråklege ordbøkene (som gir morfologiske analysatorar/generatorar):
-Filene <code>apertium-nn-nb.nn-nb.rlx</code> og <code>apertium-nn-nb.nb-nn.rlx</code> inneheld [[CG]]-reglar for morfologisk disambiguering, desse er konvertert frå [http://maximos.aksis.uib.no/Aksis-wiki/Oslo-Bergen_Tagger Oslo-Bergen-taggeren].
+** [https://github.com/apertium/apertium-nno/blob/master/apertium-nno.nno.dix apertium-nno.nno.dix]
+** [https://github.com/apertium/apertium-nob/blob/master/apertium-nob.nob.dix apertium-nob.nob.dix]
+* [[CG]]-reglar for morfologisk disambiguering:
+** [https://github.com/apertium/apertium-nno/blob/master/apertium-nno.nno.rlx apertium-nno.nno.rlx]
+** [https://github.com/apertium/apertium-nob/blob/master/apertium-nob.nob.rlx apertium-nob.nob.rlx]
+Les òg sida [[Contributing to an existing pair]], som inneheld mykje nyttig informasjon.
 Merk at oppslaga (<code><e></code>) kan vere merka med ein restriksjon, <code><e r="LR"></code>, som viser at oppslaget vil bli analysert, men ikkje generert (dette kan vere nyttig med t.d. klammeformer).
+==Installasjon==
+* Sjå [[/Installasjon]] viss du vil installere nyaste utgåve av apertium-nno-nob, og sjølve apertium osb.
+* Generell installasjonsinformasjon finn du på [[Installation]]
+== Statistikk og status ==
+Github har ei side der du kan sjå  [https://github.com/apertium/apertium-nno-nob/commits/master nyaste endringar i apertium-nno-nob].
-===SVN===
+===Samanlikning med store språkmodellar, 2024===
-Sjekk ut kjeldekoden med denne kommandoen:
+[https://ntnuopen.ntnu.no/ntnu-xmlui/bitstream/handle/11250/3157630/no.ntnu%3ainspera%3a178456246%3a47656662.pdf?sequence=1&isAllowed=y Nomeland og Risåsen (2024)] gjorde ei samanlikning med ymse fine-tuned LLMs:
+{| class="wikitable"
+|-
+! Metric !! nb-nn Average !! nb-nn Median !! nb-nn SD !! nn-nb Average !! nn-nb Median !! nn-nb SD
+|-
+| BLEU      || 0.817 || 0.866 || 0.208 || 0.898 || 1.0   || 0.155
+|-
+| SacreBLEU || 0.786 || 0.983 || 0.320 || 0.814 || 1.0   || 0.306
+|-
+| METEOR    || 0.932 || 0.952 || 0.088 || 0.964 || 0.999 || 0.058
+|-
+| BERTScore || 0.984 || 0.995 || 0.025 || 0.987 || 1.0   || 0.022
+|-
+| COMET     || 0.964 || 0.972 || 0.029 || 0.954 || 0.973 || 0.055
+|}
+(frå side 47)
+Den automatiske evalueringa viser at apertium-nno-nob er konkurransedyktig med fine-tuned normistral/nor-gpt/norwai-mistral etc. – dei er så nære at for alle metrikkane, så er snitt av Apertium godt innanfor snitt±SD av den beste LLM-en.
+Forskjellane er lettare å sjå på feiltypar. Når apertium gjer feil er det vanlegvis svært gjenkjenneleg, av typen ugrammatisk syntaks eller samansetjingar som ikkje fungerer. Når LLM-en gjer feil, ser det ofte svært tilforlateleg ut, og kan vera vanskelegare å oppdaga.
+===WER på NTB-nyheiter 2018-08-27===
+På NTB-nyheiter har apertium-nno-nob ein median-WER på under 5 %.
+Dette er frå ein test på 1221 nyheitsartiklar med korrektur, der me finn WER på kvar enkeltartikkel og så tar median (og ulike typar snitt) av WER:
 <pre>
+ date                 | hmean   | gmean   | median   | amean   | stddev   ‖
-svn co https://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium-nn-nb
+-08-01-editinput | 2.81    | 2.71    | 3.95     | 4.98    | 4.56     ‖
+-08-27_e0bab1b   | 3.07    | 3.22    | 4.37     | 5.15    | 4.24     ‖
 </pre>
+Linja 2019-08-01-editinput er WER på «editinput», dvs. input til korrekturane frå apertium, der editinput blei laga av ulike apertium-utgåver frå ca. august 2019.
-Til dei som ikkje har vore borti svn: For å gje denne kommandoen slik må du ha Linux eller Mac, '''svn''' installert, og kommandoen skal skrivast i terminal-programmet. Windowsbrukarar må laste ned programmet [http://tortoisesvn.net/ tortoisesvn] (jf. denne [http://giellatekno.uit.no/doc/infra/setup-svn.html svn-innføringssida]).
+Linja 2019-08-27_e0bab1b er samanlikning mellom dei korrekturane og ei ny omsetjing (med versjonane [https://github.com/apertium/apertium-nob/commit/f0fc272315bb0e31d24c82b6fbe1bb7b6000f758] [https://github.com/apertium/apertium-nno/commit/1f7631e5184e174f13940b83c0c59ae14b1beb06] [https://github.com/apertium/apertium-nno-nob/commit/e0bab1b3e57a8d529b524d818339c4b9237f7225]).
-SourceForge har au ei side der du kan sjå  [http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-nn-nb/?sortby=date#dirlist nyaste endringar i apertium-nn-nb].
-== Statistikk og status ==
+===Dekning på ordbøkene===
-For ordbøkene (dvs. utan <code>dev/infreq*dix</code>-ordbøkene):
 {| class="wikitable" border="1"
 |-
 !  Språk
 !  #
 !  @
 !  / (bidix)
 !  / (gen)
 !  Dekning på Wikipedia
+!  [#@/] på 20000 linjer frå Wikipedia
 |-
 |  Nynorsk
-|  742
+|  0
-|  1278
+|  0
-|  34
+|  0
-|  9
+|  0
-|  84.7%
+|  88,9 %
+|  0
 |-
 |  Bokmål
-|  574
+|  0
-|  1566
+|  0
-|  99
+|  0
-|  4
+|  0
-|  83.9%
+|  90,0 %
+|  0
 |}
+Dekninga med samansetjingsanalyse av substantiv på bokmålswikipedia er: <code>91,6 %</code>
+Dei tre første kolonnene får du vha. skriptet <code>dev/testvoc.sh</code>. Teikna #, /, @ og * er forklart på sida [[Apertium stream format]]. Skriptet <code>dev/coverage.sh</code> gir dekning. Feilkoder i korpus får du ved å køyre <code>cat /korpora/nb.txt | sed 's/[@#]/_/g'| fold | head -n 20000 | apertium-nb-nn | ack '[@#]'</code> (evt. <code>grep -c</code>), og omvendt. Korpusa er nnwiki-20090119-pages-articles.xml.bz2 og nowiki-20090108-pages-articles.xml.bz2 (sjå [http://download.wikimedia.org/backup-index.html download.wikimedia.org]).
+Lister over kor mange lemma kvar ordbok har:
-(fått vha. skriptet <code>dev/inconsistency.sh</code> og <code>cat nb-to-nn.inconsistency | grep '@' |sed 's/<n></<n_/g'| sed 's/.*@\([^>]*\).*/\1>/' | uniq > nn.@ && wc -l nn.@</code> etc.)
+* [[Apertium-nno-nob/stats]]
+* [[Apertium-nno/stats]]
+* [[Apertium-nob/stats]]
-== Decisions to make, variants ==
-In the long run, we'd like something like [http://www.nynodata.no/var/nynodata/storage/images/media/images/innstilling/842-1-nno-NO/innstilling.gif this], which Apertium supports through [[variants]] on transfer rules and lexical entries, but until then, there are some decisions to make.
-=== «Dagens BT» (tidssubstanstiv og genitiv) ===
-Det finst allerei unntak som omsett «et års tid» til «eit års tid» (heller enn «tida til eit år»); me kunne lagt ei klasse med substantiv som alle skulle omsettast med ein annan regel om dei opptredde i bestemd form:
-* (nb) dagens BT → BT i dag
-* (nb) årets festival → festivalen i år
+===WER-test 2009-08-28===
+[http://nn.wikipedia.org/w/index.php?title=Lingvistikk&diff=1052110&oldid=1052109 diff på maskinomsetjing og redigert versjon]
+<pre>
+Statistics about input files
+-------------------------------------------------------
+Number of words in reference: 3750
+Number of words in test: 3736
+Number of unknown words (marked with a star) in test: 653
+Percentage of unknown words: 17.48 %
+Results when removing unknown-word marks (stars)
-=== LR og valfrie formar ===
+-------------------------------------------------------
-Eg har nytta [http://nynorsk.org nynorsk.org]-malen i mange tilfelle, berre for å ha noko litt konsekvent å gå etter, når det gjeld val mellom suffiks ol. --[[User:Unhammer|Unhammer]] 18:07, 6 July 2009 (UTC)
+Edit distance: 400
+Word error rate (WER): 10.71 %
+Number of position-independent word errors: 343
+Position-independent word error rate (PER): 9.18 %
+Results when unknown-word marks (stars) are not removed
-LR-ane er foreløpig slik at me har, for nynorske substantiv:
+-------------------------------------------------------
-* ''tempusane'' (ikkje ''tempora(a)'')
+Edit distance: 824
-* ''sagaa'' (ikkje ''sagai'')
+Word Error Rate (WER): 22.06 %
-* ''dunderar'' (ikkje ''dundrar'')
+Number of position-independent word errors: 769
+Position-independent word error rate (PER): 20.58 %
+Statistics about the translation of unknown words
-for nynorske verb:
+-------------------------------------------------------
-* ''vemdest'' og ''har vemst'' (ikkje ''vemtest'' eller ''har vems'')
+Number of unknown words which were free rides: 424
-* ''tømde'' og ''har tømt'' (ikkje ''tømte'' eller ''har tømd'')
+Percentage of unknown words that were free rides: 64.93 %
+</pre>
+Sjå au [http://unhammer.github.com/apertium-nn-nb-WER/ orddiff med og utan samansetjingsanalyse].
-for nynorske adj.partisipp:
-* ''laten'' og ''latne'' (mf, pl) (ikkje ''lata'')
-* ''late'' (nt) (ikkje ''lati'' eller ''lata'')
-* ''degd'' (mf) og ''degt'' (nt)
-* ''treden'' (mf), ''trede'' (nt), ''tredne'' (pl/def) (ikkje ''tredd''/''tredt''/''tredde'', der me har valet mellom dei to subparadigma)
+==Pipeline==
-(visse partisipp-paradigme med LR-ar dekkjer fleire lemma, det står «wsd todo» på dei fleste av desse...)
+[[Image:Nob-nno-pipeline.jpg|thumb|700px|left|Current pipeline for nob-nno direction]]
+==Generell TODO-liste==
+# Utvide vokabular/bidix (meir dekning)
+## f.eks. med <code>lt-expand full.nb.dix | cut -d: -f2 | grep '<POS>' | sed 's/<.*//' | uniq > sjekke</code> og <code>hunspell check -d nn sjekke</code>
+# Fleire høgfrekvente partikkelverb
+# Fleire ord som treng spesielle eigedomspreposisjonar (kapteinen '''på''' skipet, motoren '''i''' bilen), sjå listene "gen-på" og "gen-i" i nb-nn.t1x
+# Konvertere [[norsk#syntaks|syntaksdelen av Oslo-Bergen-taggaren]]; me bør vere sikre på om ein NP er subjekt eller objekt (osb.) før me flyttar ein heil NP
+# Ny variant basert på [http://i18n.skulelinux.no/retningslinjer.html fellesordlista] (ev. la -a-infinitivsvarianten følgja den)
+# Prøv [http://www.aclweb.org/anthology/Y13-1046 PDK]/[http://www.hf.uio.no/iln/om/organisasjon/tekstlab/aktuelt/arrangementer/2015/nodalida15_submission_90.pdf resectioning] på CG-en (evaluer mot språkmodell på målspråket eller parallellkorpus)
+== Variantar og valfridom ==
-osb.
+apertium-nno-nob bruker systemet skissert på [[Dialectal_or_standard_variation#Overlapping_variants]] for å støtta den rike valfridomen i nynorsk.
-For bokmålssubstantiv har eg au unngått ''tempora'' osb., og har valt
-* ''peppere'' (ikkje ''pepperer'' eller ''peprer'')
-* ''kapitlet'' (ikkje ''kapittelet'')
+Tidlegare var det berre to brukarval: -a vs -e i infinitiv, og ''vi'' vs ''me''. Dette gav totalt 2^2=4 moglege normar for omsetjaren.
-Skriv gjerne på diskusjonssida om du ikkje er samd i formvala! (Det kan t.d. vere at det finst grupper av ord som ikkje skal følgje regelen over, medan andre ord skal dette.)
+Per i dag (17.mars 2026) er det 161 brukarval. Dei dekker m.a.
-(Sjå au delen om WSD-problem nedanfor, visse LR-ar er der ganske enkelt fordi iallfall eitt lemma må veljast.)
+* enkeltord (vi vs me, medan vs mens)
-=== Garpegenitiv ===
+* generelle lydendringar (nød/løp/død/… vs naud/laup/daud/…, kristendommen/bispedømmet/… vs kristendomen/bispedømet/…)
-Idea: Possibly there could be a transfer rule variant on whether or not to keep the "garpegenitiv"/[http://en.wikipedia.org/wiki/His_genitive his-genitive] across translations since it's a bit... [http://www.sprakradet.no/nb-no/Toppmeny/Publikasjoner/Spraaknytt/Arkivet/Eldre/Garpegenitiven/ disputed].
+* kjønn (apa/lova vs apen/loven)
---[[User:Unhammer|Unhammer]]
+* teiknsetjing
+* sitathandtering
+Prøv «Normval»-knappen på https://beta.apertium.org/index.nno.html#?dir=nob-nno
-=== bli/vart/vorte? ===
-* bli -r, blei, blitt ?
-* bli -r, vart, vorte ?
-* verte, vert, vart, vorte ?
+Nokre brukarval kan ein i tillegg skru av/på for enkeltord, t.d. kan ein velja hokjønn «apa» men hankjønn «loven». Det gjeld per i dag 206 ord.
-(Go for frequency? In nn.dix I chose to put LR on 'litle', 'vetle' & 'lisle' since 'vesle' had the highest frequency in [avis.uib.no]; nb of course has LR on 'vesle'.)
+<blockquote><em>
-=== [http://nn.wikipedia.org/wiki/Kl%C3%B8yvd_infinitiv kløyvd infinitiv] -a ===
+Imagine a piano keyboard. Um, 88 keys, only 88, and yet, and yet, hundreds of new melodies, new tunes, new harmonies are being composed upon hundreds of different keyboards every day, in Dorset alone. Now, our language, Tiger, our language. Hundreds of thousands of available words, '''frillions''' of legitimate new ideas... Hm? So that I can say the following sentence and be utterly sure that nobody has ever said it before in the history of human communication: "Hold the newsreader's nose squarely, waiter, or friendly milk will countermand my trousers."
--e eller -a?
+</em>
+–S. Fry</blockquote>
-Førekomster i http://avis.uib.no: å vita:98, å vite:90 (vete:1, veta:9); å sitja:123, å sitje:40
+Sjølv om me ser bort frå moglegheita for å skru av/på reglar for enkeltord, kan me per i dag definera 2^161=2923003274661805836407369665432566039311865085952 moglege skriftnormar i omsetjaren, litt fleire enn dei fire me hadde før.
-så foreløpig ser det ut til at -a vinn for desse...
-=== samsvarsbøying for partisippar ===
-Eit raskt søk i Oslo-korpuset av tagga nynorsktekster tyder på at dette rett og slett ikkje skjer, sjekk t.d. «levd/levt» fulgt av substantiv, sjølv om [http://no.wikipedia.org/wiki/Norsk#Verb no.wikipedia] seier at det skal bøyast. [http://osdir.com/ml/internationalization.nynorsk/2008-08/msg00007.html Erik frå i18n-no] vil «avgrense bruken» men nemner at «køyrd - køyrt - køyrde og dømd - dømt - dømde» er obligatorisk. Sånn implementeringsmessig er det kanskje like lett å innføre det for alle formar då? (Eller det er kanskje enklare med adjektivformar for desse. Fram til me får [[Variants |variantar]].)
-=== mange-fleire-flest as adjective? ===
-Oslo-Bergen-taggeren represents as adjectives anything that can have pst/comp/sup; but other language pairs have this as a determiner... so, tagging it as an adjective makes it easier to work with OBT, but perhaps harder to move between other Scandinavian languages.
 == Multiword expressions, particle verbs ==
+nn generally uses more particle verbs than nb, so going from nb->nn we have to be able to generate these; similarly, from nn->nb we might want to analyse particle verbs.
+===Generation===
 * hun bekjempet ofte fiender => ho kjempa ofte mot fiendar
-Multiwords may be represented using something like:
+[[Multiwords]] (mwe's) like this are typically represented in apertium like:
 <pre>
  <e lm="kjempe mot">
@@ Line 144: / Line 207: @@
 (see the [https://wiki.apertium.org/w/images/d/d0/Apertium2-documentation.pdf official documentation], pp.46--47.)
-'kjempe' is the inflected lemma head, 'mot' the invariable lemma tail; [[pretransfer]] (or <code>cg-proc</code>) does the moving.
+'kjempe' is the inflected lemma head (lemh), ' mot' the invariable lemma tail (lemq).
+However, the problem here is that we may have strings of arbitrary adverbs in between the two (or even objects, for some mwe's), so after bidix has transferred "bekjempet" to "kjempa_mot", transfer needs to turn this into "kjempa(lemh) ofte<adv> mot(lemq)". This looks a bit hacky, but works quite well. See [http://wiki.apertium.org/wiki/Multiwords#The_Nynorsk_hack this page] for details.
-== Transfer ==
+===Analysis===
+* Geografisk høyrer ikkje Jurafjella til Alpane, men geologisk gjer dei det. => Geografisk tilhører ikke Jurafjellene Alpene, men geologisk gjør de det.
-=== Genitive/possessive ===
-Eit søk i [http://www.tekstlab.uio.no/norsk/bokmaal/ Oslo Bergen-korpuset av taggede bokmålstekster] for genitivssubstantiv følgt av ein streng med minst eitt adjektiv viste at berre 1 av 16258 treff hadde >4 adjektiv i strengen. Så me treng berre ei endeleg mengd transferreglar for å få til:
-    * (nb) Min snute → Snuten min
-    * (nb) Min sorte snute → Den svarte snuten min
-    * (nb) Min katts snute → Snuten til katten min
-    * (nb) Min gamle katts snute → Snuten til den gamle katten min
-    * (nb) Min katts sorte snute → Den svarte snuten til katten min
-    * (nb) Min lille gamle katts sorte snute → Den svarte snuten til den vesle gamle katten min
+For analysis, [http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-nn-nb/dev/apertium-nn-nb.multiwords.t1x?sortby=date&view=log dev/apertium-nn-nb.multiwords.t1x] has a possible solution.
-Det er til no 3 typar reglar for eigedomsfrasane:
-* POSGEN ADJ* NIND
-** min/naboens (sorte) katt
-* POSGEN ADJ* NGEN ADJ* NIND
-** min/naboens (sorte) katts (hvite) snute
-* DETNONPOS ADJ* NGEN ADJ* NOM
-** en (sort) katts (hvite) snute
+ echo '^Geografisk<adj><posi><nt><sg><ind>$ ^høyre<vblex><sep><pres>$ ^ikkje<adv>$ ^*Jurafjella$ ^til<part><sep>$ ^*Alpane$' | apertium-transfer -n apertium-nn-nb.multiwords.t1x multiwords.bin
-(the last two as of yet only have single ADJ-rules, some copy-paste still todo)
+ ^Geografisk<adj><posi><nt><sg><ind>$    ^tilhøyre<vblex><sep><pres>$ ^ikkje<adv>$ ^*Jurafjella$  ^*Alpane$
-=== Passive ===
-At the moment, we have:
-    * (nb) Boken leses → Boka blir lese (pres)
-    * (nb) Boken må leses → Boka må lesast (inf)
-    * (nb) Boken ble lest → Boka vart lese (past)
+(although at the moment this puts all superblanks right before the word "tilhøyre")
-    * (nn) Boka blir lese → Boken leses
-    * (nn) Å bli lese → Å leses
-    * (nn) Boka kan lesast → Boken kan leses
-    * (nn) Boka vart lese → Boken ble lest
-So past-tense morphological passive in Bokmål, "boken lestes", is currently not in dix (nor in Norsk Ordbank, it seems), and is low-frequency enough not to matter much yet(?). The nn=>nb transfer rule for "bli vblex" only matches present and infinitive.
+There is more discussion on the page [[Separable verbs]].
+This method is not used at the moment in nn-nb. We may switch to using https://apertium.svn.sourceforge.net/svnroot/apertium/branches/gsoc2010/skh/multiword-reorder later, which implements the same method as a separate module.
 == Dictionary peculiarities in nn-nb ==
+===Formatting===
 Formatting is as with [[Format dictionaries|apertium-dixtools]] / [[emacs|dix.el (M-x align)]]. (When &lt;e&gt;'s are indented too much this generally signifies that they haven't been thoroughly checked...)
+===Morphological tags===
 Regardless of part-of-speech category (adj,n,det.dem,...) and whether all markers are represented we should at least have the same '''order of markers''':
 <pre>
@@ Line 194: / Line 239: @@
 </pre>
-In general, '''gender''' and '''definiteness''' are not specified in plural entries.
+In general, '''gender''' and '''definiteness''' are not specified in plural entries (except for nouns of course).
+===Nouns===
 All bokmål '''feminine gender nouns''' are doubly listed in the bidix (<code>apertium-nn-nb.nn-nb.dix</code>), like so:
 <pre>
@@ Line 206: / Line 252: @@
 </pre>
-(Where Norsk Ordbank has duplicate Nynorsk adjective entries with one mf and one (LR'ed) masculine, I've just deleted the masculine entry.)
+(Where ''Norsk ordbank'' has duplicate Nynorsk adjective entries with one m/f and one (LR'ed) masculine, I've just deleted the masculine entry.)
+===Verbs===
 '''Verbs with adjective forms''' have these listed in their paradigms (eg. <code>s/etje__vblex_adj</code>) and have double bidix entries, like so:
 <pre>
@@ Line 217: / Line 264: @@
 The reason for this is simply that the Oslo-Bergen Tagger CG expects it to be like this, so for now this seems the simplest solution (for transfer to other languages it should be relatively easy to change all &lt;adj&gt;&lt;pp&gt; to &lt;vblex&gt;&lt;pp&gt; -- in any case, the pp and pprs tags are only used by these verbal adjectives, never by "regular" ones).
+'''st-verbs''' (marked <code>"pstv"</code>) sometimes don't have st-verb translations. If we're translating from an st-verb into a non-st-verb, the passive form of that verb is many times a good translation, for this we have the bidix pardef <code>"pstv_pass"</code> so that we get:
-== Enkel WSD / Orddisambiguering ==
+* takast (inf) => taes
-Eg har skrive «wsd» i ein del kommentarar rundt omkring i ordbøkene, t.d. i nn.dix står det
+* tekst (pres) => taes
+* tekest (pp) => tatt
+* tokst (prest) => tok
+...which is about as good as we can hope for. The bidix entry looks like
 <pre>
+<e r="LR"><p><l>takast</l><r>ta</r></p><par n="pstv_pass"/></e>
-<pardef n="v/ege__vblex">
-  <!-- wsd todo -->
-...
 </pre>
+(since in the other direction we'll just use the Nynorsk lemma ''ta'')
-sidan pardef-en <code>v/ege__vblex</code> er nytta båe for vege_vekt og for vege_veg. Paradigmedefinisjonar markert med «wsd» må altså etter kvart endrast for å få unike &lt;r&gt; til bruk i bidix, slik at me iallfall for dei formane som er ulike får disambiguering «gratis», t.d. ved sterke vs svake bøyingar, ''slepte'' vs ''slapp''. For det siste paret, der den svake formen er kausativ-transitiv medan den sterke er intransitiv, kan me ha følgjande pardef:
+However, some st-verbs translate more fluently into non-passive forms, so here we just have bidix entries that remove the <code>"pstv"</code> tag:
 <pre>
+<e r="LR"><p><l>devlast<s n="vblex"/><s n="pstv"/></l><r>krangle<s n="vblex"/></r></p></e>
-<pardef n="sl/eppe__vblex">
+</pre>
-  <e>       <p><l>epp</l>   <r>eppe<s n="vblex"/><s n="iv"/><s n="imp"/></r></p></e>
-  <e r="LR"><p><l>epp</l>   <r>eppe<s n="vblex"/><s n="tv"/><s n="imp"/></r></p></e>
-  <e r="LR"><p><l>eppa</l>  <r>eppe<s n="vblex"/><s n="iv"/><s n="inf"/></r></p></e>
-  <e r="LR"><p><l>eppa</l>  <r>eppe<s n="vblex"/><s n="tv"/><s n="inf"/></r></p></e>
-  <e>       <p><l>eppe</l>  <r>eppe<s n="vblex"/><s n="iv"/><s n="inf"/></r></p></e>
-  <e r="LR"><p><l>eppe</l>  <r>eppe<s n="vblex"/><s n="tv"/><s n="inf"/></r></p></e>
+===Restricted multiwords===
-  <e>       <p><l>eppast</l><r>eppe<s n="vblex"/><s n="tv"/><s n="inf"/><s n="pst"/></r></p></e>
+In some cases we've used simple '''multiwords''' to translate (especially some prepositions). However, in some cases these eat up other possible analyses, then we try to restrict them to ''generation''. In monodix we have:
-  <e r="LR"><p><l>eppast</l><r>eppe<s n="vblex"/><s n="iv"/><s n="inf"/><s n="pst"/></r></p></e>
+<pre>
+<e r="RL" lm="i dette">  <i>i<b/>dette</i><par n="i__pr"/></e>
+</pre>
+In this case, we might want to analyse ''dette'' as a determiner rather than a part of a preposition, so the safer route is to not analyse such MWE's since our tagger won't even be given a choice if we do.
+===Forskjellar frå Norsk ordbank===
-  <e>       <p><l>oppe</l>  <r>eppe<s n="vblex"/><s n="iv"/><s n="pp"/></r></p></e>
+Visse ord i Norsk ordbank har ulike oppslag, medan dei står under eitt oppslag i omsetjingsordboka til Apertium, t.d. inkluderer <i>-gjere</i>-ord i bidix ''-gjøre''-formene (desse har r="LR" i <code><pardef n="g/jere__vblex_adj"/></code> i nn.dix).
-  <e r="LR"><p><l>oppi</l>  <r>eppe<s n="vblex"/><s n="iv"/><s n="pp"/></r></p></e>
-  <e>       <p><l>eppt</l>  <r>eppe<s n="vblex"/><s n="tv"/><s n="pp"/></r></p></e>
+* Verb:
-  <e>       <p><l>epp</l>   <r>eppe<s n="vblex"/><s n="iv"/><s n="pres"/></r></p></e>
+** -gjere/-gjøre
-  <e>       <p><l>epper</l> <r>eppe<s n="vblex"/><s n="tv"/><s n="pres"/></r></p></e>
+* Substantiv:
+** -vit/-vett
+...
+===Store og små bokstavar===
-  <e>       <p><l>app</l>   <r>eppe<s n="vblex"/><s n="iv"/><s n="pret"/></r></p></e>
+Om eit ord typisk har Stor Forbokstav, tek Apertium seg av dette (dvs. «A4-format» blir til «A4-format» sjølv om det står "a4-format" i ordbøkene), her gir me små bokstavar overalt i ordbøkene.
-  <e>       <p><l>eppte</l> <r>eppe<s n="vblex"/><s n="tv"/><s n="pret"/></r></p></e>
-</pardef>
+Om eit ord har store bokstavar ''andre stader enn første bokstav'', t.d. «BCG-vaksine», må me trikse litt. Det er ikkje lurt å ha store bokstavar i lemma (&lt;r&gt;), sidan apertium-transfer ikkje ser forskjell på kva for store bokstavar som kjem frå lemma og kva som kjem frå ordet me las (dvs. «Eg», «A4-format» og «BCG-vaksine» er alle representert på same måte i transfer, sjølv om ein i ordboka skreiv «eg» og «a4-format» men «BCG-vaksine»); og apertium-transfer må kunne endre bokstavstorleik når me flyttar rundt på ord:
+* Vaksinens virkning -> Verknaden til vaksinen
+er ein vanleg transfer-regel, kor «vaksinen» får liten forbokstav, samstundes vil me gjerne ha
+* BCG-vaksinens virkning -> Verknaden til BCG-vaksinen
+men transfer veit ikkje frå input at den store forbokstaven i «BCG-vaksinen» ikkje skal fjernast, transfer sender like godt ut «bcg-vaksine» (som gir # om me har &lt;r&gt;BCG-vaksine&lt;/r&gt;).
+Difor har me følgjande i ordbøkene:
+<pre>
+  <pardef n="Bb"><e r="LR"><i>b</i></e><e r="RL"><p><l>B</l><r>b</r></p></e></pardef>
+  <pardef n="Cc"><e r="LR"><i>c</i></e><e r="RL"><p><l>C</l><r>c</r></p></e></pardef>
+  <pardef n="Gg"><e r="LR"><i>g</i></e><e r="RL"><p><l>G</l><r>g</r></p></e></pardef>
+...
+  <e lm="BCG-vaksine">   <par n="Bb"/><par n="Cc"/><par n="Gg"/><i>-vaksin</i><par n="r/e__n"/></e>
 </pre>
+Så &lt;r&gt; har berre små bokstavar, men me skriv alltid med store bokstavar på rett plass (om transfer les ''berre'' store bokstavar, vil output au vere berre store bokstavar; det går alltid greit å gå frå små til store i output, men ikkje andre vegen).
+== Enkel WSD / Orddisambiguering ==
+Eg har skrive «wsd» i ein del kommentarar rundt omkring i ordbøkene, t.d. i nn.dix står det
+<pre>
+<pardef n="v/ege__vblex">
+  <!-- wsd todo -->
+...
+</pre>
+sidan pardef-en <code>v/ege__vblex</code> er nytta båe for vege_vekt og for vege_veg.
+===Valens===
+Paradigmedefinisjonar markert med «wsd todo» må etter kvart endrast for å få unike &lt;r&gt; til bruk i bidix, slik at me iallfall for dei formane som er ulike får disambiguering «gratis». Ved t.d. sterke vs svake bøyingar, ''slepte'' vs ''slapp''. For ''sleppe'', der den svake formen er kausativ-transitiv medan den sterke er intransitiv, har me følgjande pardef:
+<pre>
-Infinitivsformane vil jo enno vere tvitydige.
+<pardef n="sl/eppe__vblex_adj" c="-er/-te/-t is ¹ trans; -epp/-app/-oppe is intrans">
+  <e>       <p><l>oppen</l>  <r>eppe<s n="adj"/><s n="pp"/><s n="f"/><s n="sg"/><s n="ind"/></r></p></e>
+  <e>       <p><l>oppen</l>  <r>eppe<s n="adj"/><s n="pp"/><s n="mf"/><s n="sg"/><s n="ind"/></r></p></e>
+  <e>       <p><l>oppe</l>   <r>eppe<s n="adj"/><s n="pp"/><s n="nt"/><s n="sg"/><s n="ind"/></r></p></e>
+  <e r="LR"><p><l>oppi</l>   <r>eppe<s n="adj"/><s n="pp"/><s n="nt"/><s n="sg"/><s n="ind"/></r></p></e>
+  <e>       <p><l>opne</l>   <r>eppe<s n="adj"/><s n="pp"/><s n="pl"/></r></p></e>
+  <e>       <p><l>opne</l>   <r>eppe<s n="adj"/><s n="pp"/><s n="sg"/><s n="def"/></r></p></e>
+  <e>       <p><l>eppande</l><r>eppe<s n="adj"/><s n="pprs"/></r></p></e>
+  <e>       <p><l>epp</l>    <r>eppe<s n="vblex"/><s n="imp"/></r></p></e>
+  <e>       <p><l>epp</l>    <r>eppe</r></p><par n="a_vs_e__vblex_inf"/></e>
+  <e>       <p><l>eppast</l> <r>eppe<s n="vblex"/><s n="inf"/><s n="pasv"/></r></p></e>
+  <e>       <p><l>oppe</l>   <r>eppe<s n="vblex"/><s n="pp"/></r></p></e>
+  <e r="LR"><p><l>oppi</l>   <r>eppe<s n="vblex"/><s n="pp"/></r></p></e>
+  <e>       <p><l>epp</l>    <r>eppe<s n="vblex"/><s n="pres"/></r></p></e>
+  <e>       <p><l>app</l>    <r>eppe<s n="vblex"/><s n="pret"/></r></p></e>
+  <e>       <p><l>eppt</l>   <r>eppe¹<s n="adj"/><s n="pp"/><s n="mf"/><s n="sg"/><s n="ind"/></r></p></e>
+  <e>       <p><l>eppt</l>   <r>eppe¹<s n="adj"/><s n="pp"/><s n="nt"/><s n="sg"/><s n="ind"/></r></p></e>
+  <e>       <p><l>eppte</l>  <r>eppe¹<s n="adj"/><s n="pp"/><s n="pl"/></r></p></e>
+  <e>       <p><l>eppte</l>  <r>eppe¹<s n="adj"/><s n="pp"/><s n="sg"/><s n="def"/></r></p></e>
+  <e>       <p><l>eppande</l><r>eppe¹<s n="adj"/><s n="pprs"/></r></p></e>
+  <e>       <p><l>epp</l>    <r>eppe¹<s n="vblex"/><s n="imp"/></r></p></e>
+  <e>       <p><l>epp</l>    <r>eppe¹</r></p><par n="a_vs_e__vblex_inf"/></e>
+  <e>       <p><l>eppast</l> <r>eppe¹<s n="vblex"/><s n="inf"/><s n="pasv"/></r></p></e>
+  <e>       <p><l>eppt</l>   <r>eppe¹<s n="vblex"/><s n="pp"/></r></p></e>
+  <e>       <p><l>epper</l>  <r>eppe¹<s n="vblex"/><s n="pres"/></r></p></e>
+  <e>       <p><l>eppte</l>  <r>eppe¹<s n="vblex"/><s n="pret"/></r></p></e>
+</pardef>
+</pre>
 ==CG: OBT==
@@ Line 294: / Line 400: @@
 There are no word-specific rules in <code>ndomain</code>s, only <code>domain</code>s. The last half is "heuristic" (ie. safer rules get tried first).
+===Syntaks===
+Syntaksfilene er ikkje konvertert enno.
+Desse er meint å køyre etter morfologisk disambiguering; i Apertium vil dei altså køyre slik:
+ ... | cg-proc nn-nb.rlx.bin | cg-proc -w nn-nb.syntax.rlx.bin | apertium-tagger -g nn-nb.proc | ...
+MAP-reglane i syntaksen legg til nye tags, som blir fjerna igjen i apertium-transfer.
+Om me har taggar som @OBJ, kan dei nyttast til t.d.:
+* Om vinteren selges nok kyrne => Om vinteren blir nok kyrne selt
+ved å matche
+<pre>
+	<pattern-item n="vblexprespass"/>
+	<pattern-item n="adv"/>
+	<pattern-item n="@obj"/>
+</pre>
+og
+* Om vinteren selges nok de gamle kyrne => Om vinteren blir nok dei gamle kyrne selt
+ved
+<pre>
+	<pattern-item n="vblexprespass"/>
+	<pattern-item n="adv"/>
+	<pattern-item n="@det>"/>
+	<pattern-item n="@adj>"/>
+	<pattern-item n="@obj"/>
+</pre>
 ==Testing==
@@ Line 299: / Line 432: @@
 * [[/Regression tests]]
 * [[/Pending tests]]
-* [http://xixona.dlsi.ua.es/~fran/norsk/bt/bt.php Test systemet på Bergens Tidende]
 ==Ressursar==
 * [[Norsk ordbank]]
 * [[North Germanic languages]]
-* [http://maximos.aksis.uib.no/Aksis-wiki/Oslo-Bergen_Tagger Oslo-Bergen-taggaren] CG-reglar (bokmål, nynorsk) + leksikon (binærfil)
+* [http://maximos.aksis.uib.no/Aksis-wiki/Oslo-Bergen_Tagger Oslo-Bergen-taggaren] CG-reglar (bokmål, nynorsk) + leksikon (binærfil) (sjå òg [http://svn.emmtee.net/tags/handon/uib/lisp/projects/morph/compounds.lisp lispkoden til samansetjingsanalysen])
 * [http://omilia.uio.no/obt/ Oslo-Bergen-taggaren] (heimeside)
-* [http://nn.wikipedia.org/wiki/Wikipedia:Gode_nynorskord Gode nynorskord] på Wikipedia -- fin liste over gode omsetjingar frå bokmål til nynorsk
+* [http://nn.wikipedia.org/wiki/Wikipedia:Gode_nynorskord Gode nynorskord] på Wikipedia – fin liste over gode omsetjingar frå bokmål til nynorsk
+* [http://www.synonymer.no/tiki-listpages.php?initial=&find=&maxRecords=25 Synonymer.no]
+* [http://www.nynorsk.org/ Nynorsk.org] – «valfridom er oppskrytt»
+* [http://www.dokpro.uio.no/bokmaal/nyord/nyord_ramme.html Nyord i norsk] (søk etter t.d. pleonasme, ulike typar samansetjing, anglisisme, komposisjonsfuge (epentese), osb.)
+==Further reading==
+* Unhammer, K. and Trosterud, T. (2009) [http://hdl.handle.net/10045/12025 "Reuse of free resources in machine translation between Nynorsk and Bokmål"]. ''First International Workshop on Free/Open-Source Rule-Based Machine Translation, Alicante, Spain''
-==Verkt(ø)y==
-* [[Using SVN]]
-* [http://sourceforge.net/account/registration/ Create an account on SourceForge]
 [[Category:Languages]]

Difference between revisions of "Norwegian Nynorsk and Norwegian Bokmål"

Latest revision as of 14:58, 17 March 2026

Contents

Vil du bidra?[edit]

Installasjon[edit]

Statistikk og status[edit]

Samanlikning med store språkmodellar, 2024[edit]

WER på NTB-nyheiter 2018-08-27[edit]

Dekning på ordbøkene[edit]

WER-test 2009-08-28[edit]

Pipeline[edit]

Generell TODO-liste[edit]

Variantar og valfridom[edit]

Multiword expressions, particle verbs[edit]

Generation[edit]

Analysis[edit]

Dictionary peculiarities in nn-nb[edit]

Formatting[edit]

Morphological tags[edit]

Nouns[edit]

Verbs[edit]

Restricted multiwords[edit]

Forskjellar frå Norsk ordbank[edit]

Store og små bokstavar[edit]

Enkel WSD / Orddisambiguering[edit]

Valens[edit]

CG: OBT[edit]

Konvertering[edit]

Store og små bokstavar[edit]

Architecture of CG files[edit]

Syntaks[edit]

Testing[edit]

Ressursar[edit]

Further reading[edit]

Navigation menu

Search