Apertium has moved from SourceForge to GitHub.
If you have any questions, please come and talk to us on #apertium on irc.freenode.net or contact the GitHub migration team.

Jaunas valodas uzsakšana ar HFST

From Apertium
Jump to: navigation, search

Contents

Informācijai kā instalēt HFST, apskatiet HFST

Šī lapa paskaidros kā sākt jaunas valodas mācīties ar HFST. Šeit ir dažas lieliskas norādes ar lexc un twol formālismu, piemēram FSMBook, bet daudzi no viņiem nodarbojas ar patentēta Xerox realizāciju, nevis bezmaksas HFST patentēšanu.

Kamēr patiesais formālisms ir vairāk vai mazāk vienāds, komandas, kuras izmanto, lai kompilētu tos nevienmēr ir vienāds. HFST ir daudz saderīgāka ar Unix filozofiju. Tātad mēs to izmantosim. Lielākā daļa indoeiropiešu valodas un izolētās valodas var tikt viegli izskatītas ar lttoolbox, mēs varēsim tikt galā ar valodu, kas nav no šīs saimes, un vienu, kas ir morfoloģiski sarežģītāka, ko ir sarežģīti aplūkot ar lttoolbox.

[edit] Priekšdarbi

Morfoloģiskais pārveidotājs HFST ir divi principiāli faili, viens ir lexc fails. Tas definē kā morfēmas valodā ir savienotas, morfotaktikas. Otrs fails var būt twol (divu līmeņu noteikums) vai xfst (kārtas pārrakstīšanas noteikums) fails. Šie faili apraksta, kādas pārmaiņas notiks, ka šīs morfēmas savienosies kopā morfografemikas (vai morfonoloģija). Piemēram,

Morfotaktikas: wolf<n><pl>wolf + s
Morfografemikas: wolf + swolves

Šeit mēs darbosimies ar twol, divu līmeņu noteikumu. Ja jūs esat ieinteresēti xfst failā, šeit ir jauka pamācība pamācība Foma lapā.

Nākamajā sekcijā mēs sāksim ar leksikonu (lexc file) tad progresēsim morfografemētikas (twol failos).

Pārliecinaties, ka jums ir HFST3 kompilēts.

[edit] Valoda

Valodu, ko mēs gatavojamies modelēt šodien — ir turkmēņu valoda, Turku valodā runā Turkmenistānā. Valodu pāri ar kuriem mēs strādāsim ir turku--turkmēņu. Mēs gatavojamies modelēt un izmēģināt pamata locīšanas (skaitļi, locījumi) kategorijas lietvārdus. Pamata locīšana turkmēņu lietvārdiem ir: seši locījumi, divi skaitļu un piederība. Piedēkļiem var būt dažādas formas atkarībā no tā vai tie ir pievienoti patskaņa celmam, vai konstantam beigu celmam.

[edit] Patskaņu saskaņa

Vienkāršojot daudzus,[1], jo varam teikt, ka cenlms turkmēņu vārdiem var būt ar vienu no diviem tipiem, aizmugurējo patskaņu celms, vai priekšējo patskaņu celms. Aizmugurējo patskaņu celms, tādam vārdam kā mugallym "skolotājs" ir tikai aizmugurējie patskaņi, un priekšējo patskaņu celms, tādam vārdam kā kädi "ķirbis" ir tikai priekšējie patskaņi. Aizmugurējie patskaņi Turkmēņiem ir: a, y, o, un u. Priekšējie patskaņi ir: ä, e, i, ö, un ü.

Tātad, kad pievienojam priedēkli pie celma, mums ir jāzina ka patskaņi celmā ir secībā, lai izvēlētos pareizo patskani ko ievietot priedēklī.

[edit] Skaitļi

Skaitļi turkmēņiem var būt nedefinēti (kurā nav piedēkļu) vai daudzskaitļi, kurā piedēkļi ir -lar vai -ler. Pirmais izmanto aizmugurējos patskaņus, bet otrais izmanto priekšējos patskaņus.

[edit] Locījumi

Zemāk tiek izmantots vairāk kompakto attēlojumu, lai parādītu piedēkļus dažādos locījumos, un starpā { un } ir patskaņa maiņa piedēklī un starp ( un ) ir epentheses.

Locījums Piedēklis Izmantojums Piemērs
V C V C
Nominatīvs Norāda priekšmetu teikumā pagta gazan
Ģenitīvs -n{y,i,u,ü}ň -{y,i,u,ü}ň Norāda pozīciju pagtanyň gazanyň
Datīvs -{a,ä} , -n{a,e} -{a,e} Netiešs objekts (tieša darbība) pagta gazana
Akuzatīvs -n{y,i} -{y,i} Tiešs obejkts pagtany gazany
Lokatīvs -(n)d{a,e} -d{a,e} Laiks/vieta pagtada gazanda
Instrumentālis -(n)d{a,e}n -d{a,e}n izcelsme pagtadan gazandan

[edit] Pilns piemērs

Piezīme: Šis neietver ģenitīvu.

maşgala "ģimene"
Locījums Vienskaitlis Daduzskaitlis
Nominatīvs maşgala maşgalalar
Ģenitīvs maşgalanyň maşgalalaryň
Datīvs maşgala maşgalalara
Akuzatīvs maşgalany maşgalalary
Lokatīvs maşgalada maşgalalarda
Instrumentālis maşgaladan maşgalalardan
esger "kareivis"
Locījums Vienskaitlis Daudzskaitlis
Nominatīvs esger esgerler
Ģenitīvs esgeriň esgerleriň
Datīvs esgere esgerlere
Akuzatīvs esgeri esgerleri
Lokatīvs esgerde esgerlerde
Instrumentālis esgerden esgerlerden

[edit] Vārdu krājums

Tātad, pēc iziešanas cauri nelielam aprakstam, sāksim ar vārdu krājumu. Fails ko mēs veidosim saucas apertium-tr-tk.tk.lexc, un tas satur vārdu krājumu no pārveidotāja. Tādēļ atveriet teksta redaktoru.

[edit] Pamati

Pirmā lieta, ko mums vajag definēt ir etiķetes, kuras mēs vēlamies radīt. Ar lttoolbox, tas ir izdarāms ar <sdefs> sektoru no .dix faila.

Vairākzīmju simboli

%<n%>   ! Lietvārds
%<nom%> ! Nominatīvs
%<pl%>  ! Daudzskaitlis

Simboli < un > ir rezervēti ar lexc, tāpēc mums vajag izvairīties no tiem ar %

Mēs arī definējam Root vārdnīcu, kas norādīs uz sarakstu celmu vārdnīcā NounStems. Root vārdnīca ir analoga


Cite error: <ref> tags exist, but no <references/> tag was found
Personal tools