Difference between revisions of "Northern Sámi and Norwegian/Pending tests"

From Apertium
Jump to navigation Jump to search
Line 300: Line 300:
* {{test|sme|Sámi allaskuvla lea okta dain allaskuvllain mii čavčča rájes|Samelands høyskole er en av de høyskolene som fra høsten}}
* {{test|sme|Sámi allaskuvla lea okta dain allaskuvllain mii čavčča rájes|Samelands høyskole er en av de høyskolene som fra høsten}}
; mii → som vs vi
; mii → som vs vi

* {{test|sme|Go su áhčči jámii de gildui sámegiela hállat telefuvnnas|Da hans far døde så ble det forbudt å snakke samisk på telefonen}}
; gildot vs gieldit (simply REMOVE:low-freq (V gildot) somewhere?)


===gen vs acc===
===gen vs acc===

Revision as of 12:59, 10 November 2011

Run with sh wiki-tests.sh Pending sme nob update (or just sh pending-tests.sh). Note that the script adds a period to the end of all lines that are not terminated by punctuation.

See also Regression tests.

Nouns

  • (sme) biilla → bilens
  • (sme) biilii → inn i bilen
Compounds
  • (sme) Politiijastašuvnna → Politistasjon
  • (sme) Oahpponeavvu → Læremiddel
  • (sme) Girjedoalut → Bokarrangement
  • (sme) Várrepresideanta → Visepresident
Diminutive
  • (sme) lottáža → til den lille fuglen
(how should we treat it?)

Adjectives

Verbs

  • (sme) goarrut → å sy


Imperativ, jerron jeara jerros jearru jearri jerroska jerrot jearrut jerret jearrit jerroset
what should we do with all the forms? "jeg/du/han/vi/dere/de må spørre"?
Nektende perfektum
  • (sme) ii lean čállit → han ville ikke ha skrevet
^^^ mistagged (or Nickel's wrong)
  • (sme) allos leage čállán → la ham ikke ha skrevet
Nektende progressiv presens
  • (sme) ii livčče čállimin → han ville ikke ha holdt på å skrive
  • (sme) ii livčče čállime → han ville ikke ha holdt på å skrive
now we get "han er kanskje ikke i gang med å skrive" -- is "would" or "maybe" better?
  • (sme) allos leage čállimin → la ham ikke holde på å skrive
  • (sme) allos leage čállime → la ham ikke holde på å skrive
Nektende pluskvamperfektum
  • (sme) ii lean čállán → han hadde ikke skrevet
  • (sme) ii lean čállimin → han holdt ikke på å skrive
  • (sme) ii lean čállime → han holdt ikke på å skrive
Potensialis presens
  • (sme) jearažan → jeg kunne vel spørre
  • (sme) jearažit → vi kunne vel spørre
Potensialis preteritum (berre visse verb)
  • (sme) veahkehežžet → du kunne vel ha hjulpet
Kondisjonalis
  • (sme) jearašin → jeg ville spørre
  • (sme) jearašeimmet → vi ville spørre
  • (sme) Itgo veahkehivčče mu? → Kunne du ikke hjelpe meg?
  • (sme) Hearggit ruhttet dego livčče ballame. → Kjørereinene løper som om de skulle være redde.
  • (sme) Mun mávssášin, jos don siđašit. → Jeg ville betale, om du ønsket det.
Jeg hadde betalt, om du ønsket det?

Passive preterite

  • (sme) Go su áhčči jámii de gildui sámegiela hállat telefuvnnas → Da hans far døde så ble det forbudt å snakke samisk på telefonen
insert 'å'

vbser-drop

  • (sme) Vare mun doppe dahje son dáppe → Skulle ønske jeg var der eller han her
maybe only informal language?

V2

  • (sme) It boađáše → Du kommer ikke
  • (sme) Maid don jugat? → Hva drikker du?
no go.qst, but pron.interr ought to be just as unambiguous

Negative, verb=>adv

  • (sme) Gummá go ii boahtán. → Merkelig at han ikke kom.
  • (sme) Juoga maid ii storrá, ii duostta geahččat dahje guoskkahit. → Noe som man ikke hører, ikke tør å se på eller å berøre.
dáidit => det er nok. Note the @←SUBJ on muitalit, thus we avoid "(best) det forteller nok alt"
  • (sme) Buoremus dáidá muitalit buot → Det er nok best å fortelle alt
Present progressive indicative negative (actio ess)
  • (sme) Ii leat čállimin → Han holder ikke på å skrive
actio ess
  • (sme) Son lea njuohtamin. → Han holder på å male.

FV + FV

pair verbs, treat as one lexical unit? or pprs the last one, eg. "å se glanende", "å drikke slurkende"?
  • (sme) geahččat gaivát → å glane
  • (sme) juhkat reavžut → å slurke

Causative

  • (sme) divuhit → få reparert
1) causative + illiative agent adverbial => å la ADVL MAINV
  • (sme) galggat gásttašahttit mánát báhppii → du skal la barnet døpes av presten
or
  • (sme) galggat gásttašahttit mánát báhppii → du skal la presten døpe barnet
  • (sme) geasa don geahčahat bohccuidat? → hvem lar du passe reinene?
2) transitive causative + accusative object => å få OBJ til å MAINV
  • (sme) Mu vuovssihii → Det fikk meg til å spy
ok translation?
  • (sme) don fertet vuos beatnaga čuogahit → du må først få hunden til å drikke
or "gi hunden drikke"??

Setningstilsvar vs advl/obj-setning

obj.setn
  • (sme) Máhtte muitalii ahte áddjá boahtá → Máhtte fortalte at bestefar skulle komme
  • (sme) Máhtte muitalii áddjá boahtá → Máhtte fortalte bestefar skulle komme
CG mistaggings
  • (sme) Mun dihten heastta sus leamaš → Jeg visste at han hadde hesten
  • (sme) Mun dieđán ruđaid leamaš áhkus. → Jeg vet at bestemor hadde penger.
pp, insert "er"
  • (sme) Son osku iežas bestojuvvon. → Han tror han er frelst.
adverbialsetning
  • (sme) Albmi lei ruoksat, go beaivi luoitádii → Himmelen var rød da sola gikk ned
setn.tilsvar m/gerundium som verbal
  • (sme) Albmi lei ruoksat beaivvi luoitádettiin → Himmelen var rød da sola gikk ned

Object/adverbial placement

  • (sme) sádde áinnas midjiide e-poasta → send gjerne e-post til oss
"send oss gjerne e-post" would be great, but then we need to mark verbs with that possibility in the chunker
  • (sme) Go lásiin bargá, de dat lea dego báhka honnet → Når han arbeider med glass, så er det som varm honning

Pronouns

genitive/det.poss
  • (sme) Du dálkasis → I din medisin

Reflexive, ieš

  • (sme) ieš dat muitalii → han selv fortalte det
  • (sme) ieža mun dájun → jeg bare tøver
  • (sme) Mun ceggen vaikke ieš filbmafestivála → Jeg setter om så selv opp filmfestival
ceggen => particle verb

Derivation

Verb / Der2 / Actor / N
  • (sme) Geavaheaddjiid → Brukere
  • (sme) geavaheaddjiid almmolaš bálvalusaide → for/til offentlige tjenester for brukere
Verb / Der1 / Der_h / Der2 / Der_eapmi (all of them?)
  • (sme) ođđa áššiid dieđiheapmi → kunngjøring av nye saker
Verb / Der3 / Der_n / N
  • (sme) dánsunkurssa → dansekurs
  • (sme) oažžun → TODO
Verb / Der1 / Der_st / V
  • (sme) báinnestit → de påvirker litt
better adverb?
N / Der1 / Der_laš / A (nasjon+al, skikk->vanlig, økonom+isk)
  • (sme) Ekonomalaš doarjagat → TODO
Is there any good way to translate both našuvnnalaš, dábálaš and ekonomalaš?
I see no possible paraphrase

Noun phrases

accusative object predicative, add "være"
  • (sme) Gáhkuid son ráhkada buriid → Kakene han lager er gode
  • (sme) Gáhkuid son ráhkada hui buriid → Kakene han lager er svært gode
Illative
  • (sme) Atte mánnái biepmu → Gi mat til barnet
misc
  • (sme) Guovddáš gulaskuddan → Sentral høring
  • (sme) dán jagi válggas → dette års valg

Odd number phrases

does this generalise?
  • (sme) 1814 Vuođđolága → Grunnloven av 1814
  • (sme) 567 jahkái → på 567 år
"vuosttaš norggasriegádan prinsa 567 jahkái."
  • (sme) okta 6 filmmas → en av 6 filmer

Definiteness

(also er/har)
  • (sme) Mus lea biepmu → Jeg har mat
  • (sme) Biepmu lea mus → Maten er hos meg
  • (sme) Du dálkasis sáhtii leamaš ávki → Din medisin kan ha vært til nytte
  • (sme) Dá livččii skeaŋka din čeahpes bárdnái → Her er en gave jeg kunne ønske å gi den flinke sønnen deres

Adpositions

Post-positions → Prepositions... move "på grunn av" first
  • (sme) garra dálkki geažil → på grunn av dårlig vær

Coordination

Questions

  • (sme) Itgo gáfe juga? → Drikker du ikke kaffe?
  • (sme) It go boađáše munnje veahkkin? → Kommer du ikke og hjelper meg?
essive predicative, difficult..."kommer du ikke til meg som hjelp?"


Prepositional choice

  • (sme) kánske mun galggan hállat dušše sámegillii dán kanálas → kanskje skal jeg bare snakke på samisk i denne kanalen


  • (sme) Mun vuolggán Norggas → Jeg drar fra Norge
  • (sme) Mun lean gávppis. → Jeg er i butikken.


med, not på
  • (sme) Jos válddát 60 poeaŋgga sámegielas → Hvis du tar 60 poeng i samisk
delete til
  • (sme) de sáhttá dat addit dutnje 60 000 ruvnnu → så kan det gi deg 60 000 kroner


delete som, "del av", not "del "
  • (sme) Boazodoalloáššit šattaše oassin dan áššehivvodagas mii galgá gieđahallojuvvot → Reindriftssakene vil bli en del av hele saksmengden som skal behandles
also bearbeides=>behandles (lex.sel), kan=>vil (why?)
oassin is essive, but still we (might) want 'en del', not just 'del'


Miscellaneous

  • (sme) juohke lágán geđggiiguin → med alle slags steiner
  • (sme) Norga.no deháleamos doaibma lea ofelastit geavaheaddjiid almmolaš bálvalusaide. → Norge.no's viktigste oppgave er å veivise brukere til offentlige tjenester.
  • (sme) Sámit dahjege sápmelaččat ásset Ruoššas, Suomas, Ruoŧas ja Norggas. → Samer eller samer bor i Russland, Finland, Sverige og Norge.
-ge particle, and an adjective adverbial
  • (sme) Leago dát duođasge Sáme Radio oaivil? → Er dette altså virkelig Same Radioens mening?
Headline, 3sg->man, no finite verb in main clause
  • (sme) Heahpat hállat go gillá → Skam å snakke når man lider
  • (sme) Jus in livčče mun ieš → Hvis det ikke hadde vært meg selv
  • (sme) Lehkos beaivi buorre → Ha en god dag
  • (sme) Lei unnán mii earuhii nuorra Prinssa skuvlavázzima eará skuvlamánáin → Det var lite som skilte den unge Prinsens skolegang fra de andre skolebarnene
  • (sme) musnai ledje → jeg hadde også


  • (sme) Juo cuoŋománu 10. beaivvi ija vuostá mátkkoštii Ruvdnaprinseassa Märtha badjel ráji Ruŧŧii oktan Ruvdnaprinsabára golmmain mánáin → Allerede 10. april mot natten reiste Kronprinsesse Märtha over grensen til Sverige sammen med Kronprinsparets tre barn
CG fixed; but bracketing trouble for "over grensen til Sverige"
  • (sme) Leago duohta? → Er det sant?
gets "er det sann?"
  • (sme) ollen deid juohke sajis → jeg når frem på hvert sted med dem
is this more or less correct?


V->N (removed for now, might be able to do in postchunk)

V / Der2 / Actor => N
  • (sme) dadjaleaddji lea doppe → den som repliserer er der borte
TODO indefinite (en som repliserer)
  • (sme) stuora dadjaleaddji lea doppe → den store som repliserer er der borte

CG Disambiguation problems

  • (sme) Gonagas Harald liiko návddašit luonddu, dan dahká son go bivdá ja lea guollebivddus → Kong Harald liker å nyte naturen, det gjør han når han jakter og er på fisketur
Gonagas Harald tagged as adverbial
  • (sme) Maŋŋá jápmimis de aliduvvui Gonagas Olav bassin → Etter på døden så ble han forhøyet til Kong Olav den hellige
-- CG fixed
  • (sme) Sámediggi Gironis koordinere ođđa prográmma. → Sametinget i Kiruna koordinerer et nytt program.
Gironis should modify the subject, not verb (but is it inherently ambiguous?)
  • (sme) Maŋŋá go parlamentarisma ásahuvvui → Etter at parlamentarismen ble innført
go=>at, ikkje da (also ásahit=>ásahit:1, innføre)
  • (sme) Gonagas Haakon bohte geassemánu 7. beaivvi, beaivvát ala vihtta jagi maŋŋá go Gonagas leigga šaddan guođđit riikka. → Kong Haakon kom den 7. juni, på dagen fem år etter at Kongen hadde måttet forlate landet.
vihtta.Acc.@←ADVL> jahki.Gen.@→P ^maŋŋá.@←ADVL looks wrong (either Num should modify N, or other way round), also go=>at


  • (sme) Máhtte rábmui iežas vuoitit dan gilvvu → Máhtte skrøt at han skulle vinne den konkurransen
  • (sme) Mii vurddiimet dálkki buorránit → Vi ventet at været skulle bedres
These should have @-FSUBJ, but get @-FOBJ instead (so the transfer rule for "at @-FSUBJ skulle V.inf" is not triggered)
  • (sme) de jullot čoalkalit uksii vuos → så får de banke på døren først
gets two finite verb tags


  • (sme) Sihko dás → Fjern dette
Pron.Dem (dette) vs Adv (her)


  • (sme) Karen Ellen Marie Siri Utsi čájeha gokko beana lei vuddjon → Karen Ellen Marie Siri Utsi viser hvor hunden hadde kjørt
gen vs attr on first name


  • (sme) Sámi allaskuvla lea okta dain allaskuvllain mii čavčča rájes → Samelands høyskole er en av de høyskolene som fra høsten
mii → som vs vi
  • (sme) Go su áhčči jámii de gildui sámegiela hállat telefuvnnas → Da hans far døde så ble det forbudt å snakke samisk på telefonen
gildot vs gieldit (simply REMOVE
low-freq (V gildot) somewhere?)

gen vs acc

  • (sme) Dan dieđán váddása → Det vet jeg er vanskelig

@HAB

  • (sme) Dál leat sus 137 gáicca → Nå har han 137 geiter

CG lexical selection

leat → 0:være, 1:ha, 2:måtte

  • (sme) Mánát leat boahtán skuvlii → Barnene har kommet til skolen

go → 0:når, 1:at, 2:enn, 3:som, 4:da, 5: fordi

  • (sme) Buoret lea johtit go orrut → Det er bedre å bevege seg enn å bli

orrut → 0:synes, 1:bo, 2:bli, 3:være

  • (sme) Doppe son orui vahku → Der borte bodde han en uke
also insert determiner