Difference between revisions of "Afrikaans and Dutch"
(CGN tags) |
|||
Line 57: | Line 57: | ||
'''CGN tags''' |
'''CGN tags''' |
||
* basis = basis GRAAD (nie diminutiefvorm) |
* basis = basis GRAAD (nie diminutiefvorm)/ not diminutive |
||
* dat = datief (NAAMVAL) |
* dat = datief (NAAMVAL)/ Dative case |
||
* dim = Diminutiefvorm (GRAAD)/ diminutive |
* dim = Diminutiefvorm (GRAAD)/ diminutive |
||
* ev = enkelvoud (GETAL)/ singular |
* ev = enkelvoud (GETAL)/ singular |
||
* gen = genitief (NAAMVAL) |
* gen = genitief (NAAMVAL)/ Genitive case |
||
* genus = zijdig/ onzijdig |
* genus = zijdig/ onzijdig |
||
* mv = meervoud (GETAL)/ plural |
* mv = meervoud (GETAL)/ plural |
Revision as of 06:09, 11 July 2008
Contents
The apertium-af-nl language pair
The first version of the af-nl language pack is now in SVN -- and can be found in the attic. However, the Dutch (NL) morphological dictionary doesn't contain enough words to do proper translations. Here are some of the words that should be added to the NL dictionary (from the first sentence I've tried to translate):
- trein
- vertrekt
- uur
- Etc.
If you can help, please do let us know!
What is needed
To fix the Dutch morphological dictionary, we need a word list that contains forms or paradigms like this:
bier,bier,n.sg bier,biere,n.pl
Where n=noun, sg=singular, pl=plural, etc.
A list that can be converted to this format will also do.
Tadpole morphological analyser
I've installed the Tadpole morphological analyser and are able to use it on text from nl.wp. The next step would be to see if the output has sufficient detail to be converted into the Apertium format.
Sample output:
Orania SPEC(deeleigen) Orania [Orania] is WW(pv,tgw,ev) zijn [zijn] een LID(onbep,stan,agr) een [een] Zuid-Afrikaans SPEC(deeleigen) Zuid-Afrikaans [Zuid-Afrikaans] dorpje N(soort,ev,dim,onz,stan) dorp [dorp][je] gelegen WW(vd,vrij,zonder) liggen [ge][lig][en] aan VZ(init) aan [aan] de LID(bep,stan,rest) de [de] Oranjerivier SPEC(deeleigen) Oranjerivier [Oranjerivier] in VZ(init) in [in] de LID(bep,stan,rest) de [de] droge ADJ(prenom,basis,met-e,stan) droog [droog][e] Karoostreek SPEC(deeleigen) Karoostreek [Karoostreek] van VZ(init) van [van] de LID(bep,stan,rest) de [de] provincie N(soort,ev,basis,zijd,stan) provincie [provincie] Noord-Kaap SPEC(deeleigen) Noord-Kaap [Noord-Kaap]
Key:
- Col 1 = Word/ Surface form
- Col 2 = Analysis/ CGN tag for each word
- ADJ = Bijvoeglijk naamwoord (adjective)
- LID = Lidwoord (article)
- N = Zelfstandig naamwoord (noun)
- SPEC = Specification???
- VZ = Voorzetsel (preposition)
- WW = Werkwoord (verb)
- Col 3 = Lemmas
- Col 4 = Morphological segmentation/ Rule for inflection
CGN tags
- basis = basis GRAAD (nie diminutiefvorm)/ not diminutive
- dat = datief (NAAMVAL)/ Dative case
- dim = Diminutiefvorm (GRAAD)/ diminutive
- ev = enkelvoud (GETAL)/ singular
- gen = genitief (NAAMVAL)/ Genitive case
- genus = zijdig/ onzijdig
- mv = meervoud (GETAL)/ plural
- onz = onzijdig (GENUS)
- soort = soortnaam (NTYPE)
- stan = standard NAAMVAL (not genitief or datief)
- zijd = zijdig (GENUS)
For more details, see http://lands.let.kun.nl/cgn/doc_Dutch/topics/version_1.0/annot/pos_tagging/tg_prot.pdf
Further analysis:
droge ADJ(prenom,basis,met-e,stan) droog [droog][e] Surface Analysis Lemma Rule form for inflection Speling equiv: droog; droge; prenom; adj dorpje N(soort,ev,dim,onz,stan) dorp [dorp][je] provincie N(soort,ev,basis,zijd,stan) provincie [provincie] Speling equiv: dorpje; dorp; soort.ev.dim; n.m provincie; provincie; soort.ev.basis; n.f
Links
- Afrikaans-Nederlandse samewerking (af.wikipedia)
- Alfabetische Woordenlijst Afrikaans - Nederlands
- Alpino Treebank - syntactically annotated Dutch sentences
- Everyday Dutch
- The Tadpole morphological analyser