Difference between revisions of "Icelandic and English"
Jump to navigation
Jump to search
Line 25: | Line 25: | ||
* Hver maður er borinn frjáls og jafn öðrum að virðingu og réttindum. |
* Hver maður er borinn frjáls og jafn öðrum að virðingu og réttindum. |
||
+ | |||
+ | ===IceFormat=== |
||
+ | |||
+ | <pre> |
||
+ | Hver foken maður nken er sfg3en |
||
+ | borinn sþgken frjáls lkensf |
||
+ | og c jafn aa öðrum fokfþ að c |
||
+ | virðingu nveþ og c réttindum nhfþ . . |
||
+ | </pre> |
||
+ | |||
+ | <pre> |
||
+ | {*SUBJ> [NP Hver foken maður nken NP] *SUBJ>} |
||
+ | [VPb er sfg3en VPb] |
||
+ | {*COMP< [VPp borinn sþgken VPp] *COMP<} |
||
+ | {*COMP< [AP frjáls lkensf AP] *COMP<} |
||
+ | [CP og c CP] |
||
+ | [AdvP jafn aa AdvP] |
||
+ | [NP öðrum fokfþ NP] |
||
+ | [SCP að c SCP] |
||
+ | [NPs [NP virðingu nveþ NP] [CP og c CP] [NP réttindum nhfþ NP] NPs] |
||
+ | </pre> |
||
+ | |||
+ | ===Apertium=== |
||
+ | |||
+ | <pre> |
||
+ | ^Hver<prn><ind><m><sg><nom>$ ^maður<n><m><sg><nom><ind>$ ^vera<vbser><pri><p3><sg>$ |
||
+ | ^bera<vblex><pp><m><sg><nom>$ ^frjáls<adj><sta><pst><m><sg><nom>$ |
||
+ | ^og<cnjcoo>$ ^jafn<adj><sta><pst><m><sg><nom>$ |
||
+ | ^annar<prn><ind><m><pl><dat>$ ^að/að<pr>$ |
||
+ | ^virðing<n><f><sg><dat><def>$ ^og<cnjcoo>$ ^réttindi<n><nt><pl><dat><ind>$ ^./.<sent>$ |
||
+ | </pre> |
||
+ | |||
+ | <pre> |
||
+ | ^prn_nom<SN><@SUBJ→>{^Hver<prn><ind><m><sg><nom>$ ^maður<n><m><sg><nom><ind>$}$ |
||
+ | ^verb<SV>{^vera<vbser><pri><p3><sg>$ ^bera<vblex><pp><m><sg><nom>$}$ |
||
+ | |||
+ | </pre> |
||
==See also== |
==See also== |
Revision as of 01:30, 8 February 2009
Pending tasks
- Tag a corpus with IceTagger and train the
apertium-tagger
- Post-edit automatically-generated bilingual dictionaries
- Use IceParser to parse a corpus and extract the most frequent patterns in terms of chunks/phrases (lists of coarse POS tags) and phrase patterns (in terms of chunks/phrases).
- Merge analysed corpus (IceMorphy full-form list) with Apertium dictionary — will require matching partial information to paradigms... perhaps use extract ?
Resources
Corpora
- Mediawiki l10n, KDE4, OpenSubtitles, etc. — from OPUS (~60k sentences)
Bilingual dictionaries
- Wikipedia interwiki (~1,100 entries)
- Freelang (~1,000 entries)
- Wiktionary (en) (~3,200 entries)
- An Icelandic-English Dictionary (Old Icelandic, 1876 — Public Domain)
- And here
- Wordbank at ismal.hi.is (licence unknown)
Example phrase
- Hver maður er borinn frjáls og jafn öðrum að virðingu og réttindum.
IceFormat
Hver foken maður nken er sfg3en borinn sþgken frjáls lkensf og c jafn aa öðrum fokfþ að c virðingu nveþ og c réttindum nhfþ . .
{*SUBJ> [NP Hver foken maður nken NP] *SUBJ>} [VPb er sfg3en VPb] {*COMP< [VPp borinn sþgken VPp] *COMP<} {*COMP< [AP frjáls lkensf AP] *COMP<} [CP og c CP] [AdvP jafn aa AdvP] [NP öðrum fokfþ NP] [SCP að c SCP] [NPs [NP virðingu nveþ NP] [CP og c CP] [NP réttindum nhfþ NP] NPs]
Apertium
^Hver<prn><ind><m><sg><nom>$ ^maður<n><m><sg><nom><ind>$ ^vera<vbser><pri><p3><sg>$ ^bera<vblex><pp><m><sg><nom>$ ^frjáls<adj><sta><pst><m><sg><nom>$ ^og<cnjcoo>$ ^jafn<adj><sta><pst><m><sg><nom>$ ^annar<prn><ind><m><pl><dat>$ ^að/að<pr>$ ^virðing<n><f><sg><dat><def>$ ^og<cnjcoo>$ ^réttindi<n><nt><pl><dat><ind>$ ^./.<sent>$
^prn_nom<SN><@SUBJ→>{^Hver<prn><ind><m><sg><nom>$ ^maður<n><m><sg><nom><ind>$}$ ^verb<SV>{^vera<vbser><pri><p3><sg>$ ^bera<vblex><pp><m><sg><nom>$}$