Difference between revisions of "Norwegian Nynorsk and Norwegian Bokmål"

From Apertium
Jump to navigation Jump to search
(mwe)
Line 2: Line 2:
Dette er ei side med praktisk informasjon for alle som vil bidra til maskinomsetjingsprosjekta til og frå norsk.
Dette er ei side med praktisk informasjon for alle som vil bidra til maskinomsetjingsprosjekta til og frå norsk.


For å kunne delta må du ha ein konto på SourceForge, og du må sjekke ut kjeldekoden via SVN.
For å kunne gjere endringar i koden må du ha ein konto på SourceForge, og du må sjekke ut kjeldekoden via [[SVN]]. Om du berre har småendringar eller forslag kan du òg ta kontakt med t.d. [[User:Unhammer|Unhammer]] eller andre involverte.


Desse er dei viktige filene for prosjektet for maskinomsetjing mellom nynorsk og bokmål.
Desse er dei viktige filene for prosjektet for maskinomsetjing mellom nynorsk og bokmål.
Line 9: Line 9:
apertium-nn-nb.nn-nb.dix
apertium-nn-nb.nn-nb.dix
apertium-nn-nb.nn.dix
apertium-nn-nb.nn.dix
apertium-nn-nb.nn-nb.rlx
apertium-nn-nb.nb-nn.rlx


Filene <code>apertium-nn-nb.nb.dix</code> og <code>apertium-nn-nb.nn.dix</code> inneheld dei morfologiske parsarane.
Filene <code>apertium-nn-nb.nb.dix</code> og <code>apertium-nn-nb.nn.dix</code> («ordbøkene») inneheld dei morfologiske parsarane/generatorane.
Fila <code>apertium-nn-nb.nn-nb.dix</code> er transferleksikonet.
Fila <code>apertium-nn-nb.nn-nb.dix</code> er transferleksikonet («omsetjingsordboka»).
Filene <code>apertium-nn-nb.nn-nb.rlx</code> og <code>apertium-nn-nb.nb-nn.rlx</code> inneheld [[CG]]-reglar for morfologisk disambiguering, desse er konvertert frå [http://maximos.aksis.uib.no/Aksis-wiki/Oslo-Bergen_Tagger Oslo-Bergen-taggeren].


Merk at oppslaga (<code><e></code>) kan vere merka med ein restriksjon,, <code><e r="LR"></code>, som viser at oppslaget vil bli analyser, men ikkje generert.
Merk at oppslaga (<code><e></code>) kan vere merka med ein restriksjon, <code><e r="LR"></code>, som viser at oppslaget vil bli analysert, men ikkje generert (dette kan vere nyttig med t.d. klammeformer).


==SVN==
==SVN==
Line 51: Line 54:
=== mange-fleire-flest as adjective? ===
=== mange-fleire-flest as adjective? ===
Oslo-Bergen-taggeren represents as adjectives anything that can have pst/comp/sup; but other language pairs have this as a determiner... so, tagging it as an adjective makes it easier to work with OBT, but perhaps harder to move between other Scandinavian languages.
Oslo-Bergen-taggeren represents as adjectives anything that can have pst/comp/sup; but other language pairs have this as a determiner... so, tagging it as an adjective makes it easier to work with OBT, but perhaps harder to move between other Scandinavian languages.

== Multiword expressions, particle verbs ==
* hun bekjempet ofte fiender => ho kjempa ofte mot fiendar

Multiwords may be represented using something like:

<e lm="kjempe mot">
<i>kjemp</i><par n="mo/e__vblex"/>
<p><l><b/>mot</l>
<r><g><b/>mot</g></r>
</p>
</e>

(see the [https://wiki.apertium.org/w/images/d/d0/Apertium2-documentation.pdf official documentation], pp.46--47.)

'kjempe' is the inflected lemma head, 'mot' the invariable lemma tail; pretransfer does the moving.


== Notes on bokmål NP structure ==
== Notes on bokmål NP structure ==

Revision as of 17:32, 6 June 2009

Dette er ei side med praktisk informasjon for alle som vil bidra til maskinomsetjingsprosjekta til og frå norsk.

For å kunne gjere endringar i koden må du ha ein konto på SourceForge, og du må sjekke ut kjeldekoden via SVN. Om du berre har småendringar eller forslag kan du òg ta kontakt med t.d. Unhammer eller andre involverte.

Desse er dei viktige filene for prosjektet for maskinomsetjing mellom nynorsk og bokmål.

apertium-nn-nb.nb.dix
apertium-nn-nb.nn-nb.dix
apertium-nn-nb.nn.dix
apertium-nn-nb.nn-nb.rlx
apertium-nn-nb.nb-nn.rlx

Filene apertium-nn-nb.nb.dix og apertium-nn-nb.nn.dix («ordbøkene») inneheld dei morfologiske parsarane/generatorane. Fila apertium-nn-nb.nn-nb.dix er transferleksikonet («omsetjingsordboka»). Filene apertium-nn-nb.nn-nb.rlx og apertium-nn-nb.nb-nn.rlx inneheld CG-reglar for morfologisk disambiguering, desse er konvertert frå Oslo-Bergen-taggeren.

Merk at oppslaga (<e>) kan vere merka med ein restriksjon, <e r="LR">, som viser at oppslaget vil bli analysert, men ikkje generert (dette kan vere nyttig med t.d. klammeformer).

SVN

Sjekk ut kjeldekoden med denne kommandoen:

svn co https://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium-nn-nb

Til dei som ikkje har vore borti svn: For å gje denne kommandoen slik må du ha Linux eller Mac, svn installert, og kommandoen skal skrivast i terminal-programmet. Windowsbrukarar må laste ned programmet tortoisesvn (jf. denne svn-innføringssida.

Decisions to make, variants

In the long run, we'd like something like this, which Apertium supports through variants on transfer rules and lexical entries, but until then, there are some decisions to make.

Garpegenitiv

Idea: Possibly there could be a transfer rule variant on whether or not to keep the "garpegenitiv"/his-genitive across translations since it's a bit... disputed. --Unhammer

bli/vart/vorte?

  • bli -r, blei, blitt ?
  • bli -r, vart, vorte ?
  • verte, vert, vart, vorte ?

(Go for frequency? In nn.dix I chose to put LR on 'litle', 'vetle' & 'lisle' since 'vesle' had the highest frequency in [avis.uib.no]; nb of course has LR on 'vesle'.)

kløyvd infinitiv -a

-e eller -a?

Førekomster i http://avis.uib.no: å vita:98, å vite:90 (vete:1, veta:9); å sitja:123, å sitje:40

så foreløpig ser det ut til at -a vinn for desse...

samsvarsbøying for partisippar

Eit raskt søk i Oslo-korpuset av tagga nynorsktekster tyder på at dette rett og slett ikkje skjer, sjekk t.d. «levd/levt» fulgt av substantiv, sjølv om no.wikipedia seier at det skal bøyast. Erik frå i18n-no vil «avgrense bruken» men nemner at «køyrd - køyrt - køyrde og dømd - dømt - dømde» er obligatorisk. Sånn implementeringsmessig er det kanskje like lett å innføre det for alle formar då? (Eller det er kanskje enklare med adjektivformar for desse. Fram til me får variantar.)

mange-fleire-flest as adjective?

Oslo-Bergen-taggeren represents as adjectives anything that can have pst/comp/sup; but other language pairs have this as a determiner... so, tagging it as an adjective makes it easier to work with OBT, but perhaps harder to move between other Scandinavian languages.

Multiword expressions, particle verbs

  • hun bekjempet ofte fiender => ho kjempa ofte mot fiendar

Multiwords may be represented using something like:

<e lm="kjempe mot">
  kjemp<par n="mo/e__vblex"/>

<l>mot</l> <r><g>mot</g></r>

</e>

(see the official documentation, pp.46--47.)

'kjempe' is the inflected lemma head, 'mot' the invariable lemma tail; pretransfer does the moving.

Notes on bokmål NP structure

Possible phrases to put in an NP slot (based on Dyvik 2000, p.11--13)) with Apertium tags:

  • året<n>
  • et<det><ind> år<n>
  • mange<adj> år<n>
  • de<det> mange<adj> årene<n>
  • alle<det><qnt> de<det><def> mange<adj> årene<n> dine<det><pos>
    • all the many years yours
  • alle<det><qnt> disse<det><def> dine<det><pos> seksti<num> år<n> som<cnjsub> gikk<vblex>
    • all these your sixty years which went
  • alle<det><qnt> som<cnjsub> gikk<vblex>
  • mange<adj>
  • mange<adj> raske<adj>
  • *raske<adj>
    • (That is, we can't say "Gi meg raske." (Give me quick (ones).) but we can say "Gi meg noen raske." (Give me some quick (ones).).)


Testing

Ressursar

Verkt(ø)y