Difference between revisions of "Kazakh and Tatar/Remaining unanalysed forms"
Jump to navigation
Jump to search
Firespeaker (talk | contribs) |
Firespeaker (talk | contribs) |
||
Line 1: | Line 1: | ||
{{TOCD}} |
|||
This is a list of top remaining unanalysed forms in the [[apertium-kaz]] and [[apertium-tat]] transducers. Taking care of issues in these will improve transducer coverage. |
|||
Forms {{highlight|highlighted in yellow}} are forms that should be pretty easy to deal with, or require very little research to add to the transducer. Forms that are <s>struck through</s> are results of the [[User:Firespeaker/HFST bug|HFST tokenisation bug]] and should be ignored for now. |
|||
== apertium-kaz == |
== apertium-kaz == |
||
=== Әуезов === |
=== Әуезов === |
||
Line 53: | Line 58: | ||
* 76 ^о/*о$ |
* 76 ^о/*о$ |
||
* <s>75 ^қызметкерлер мен/*қызметкерлер мен$</s> |
* <s>75 ^қызметкерлер мен/*қызметкерлер мен$</s> |
||
Are Исраил and Иерусалим not being analysed because of a vowel-harmony-with-и problem? If so, it should be added to the list of phonology problems—there are a couple ways this can be dealt with, and JNW will figure out which is better. |
|||
=== quran === |
=== quran === |
Revision as of 19:13, 21 January 2013
This is a list of top remaining unanalysed forms in the apertium-kaz and apertium-tat transducers. Taking care of issues in these will improve transducer coverage.
Forms highlighted in yellow are forms that should be pretty easy to deal with, or require very little research to add to the transducer. Forms that are struck through are results of the HFST tokenisation bug and should be ignored for now.
apertium-kaz
Әуезов
- 70 ^ғой/*ғой$
- 65 ^ды/*ды$
- 58 ^жиып/*жиып$
- 58 ^Е/*Е$
- 57 ^Ақжелке/*Ақжелке$
- 47 ^жиын/*жиын$
- 43 ^ертіп/*ертіп$
- 35 ^жиылып/*жиылып$
- 34 ^соншалық/*соншалық$ — pronoun form
- 30 ^ты/*ты$
- 28 ^атаулының/*атаулының$
- 28 ^ақырғы/*ақырғы$ —
<attr>
of ақыр<adv>
- 27 ^е/*е$
- 26 ^ді/*ді$
- 26 ^ғып/*ғып$
- 25 ^аттылар/*аттылар$ — I think this is a literary
<p3>
<pl>
past tense, which we should at least analyse - 23 ^бұ/*бұ$
- 21 ^жиылған/*жиылған$
- 20 ^кей/*кей$
- 18 ^Тектіғұл/*Тектіғұл$
- 18 ^О/*О$
- 17 ^Ойбай/*Ойбай$ —
<ij>
- 17 ^о/*о$
- 17 ^қамданып/*қамданып$
Is there a verb жиы- ??
bible
- 897 ^Исраилдің/*Исраилдің$ — Исраил
<cog>
<m>
= Israel - 319 ^іспетті/*іспетті$
- 242 ^Таурат/*Таурат$
- 237 ^Иерусалимге/*Иерусалимге$ — Иерусалим
<top>
- 198 ^гөр/*гөр$
- 177 ^Иерусалимнің/*Иерусалимнің$ — Иерусалим
<top>
- 172 ^жек/*жек$ — жек көр- ?
- 163 ^Иерусалимде/*Иерусалимде$ — Иерусалим
<top>
- 160 ^әркім/*әркім$ — a pronoun "anyone"
- 156 ^ертіп/*ертіп$
- 150 ^Ей/*Ей$ —
<ij>
? - 136 ^Исраилге/*Исраилге$ — Исраил
<cog>
<m>
= Israel - 111 ^Манаса/*Манаса$
- 105 ^леуіліктер/*леуіліктер$ Леуі is the name of a tribe ("Levi", after a patriarch?); леуіліктер is the Levites
- 96 ^Исраилді/*Исраилді$ — Исраил
<cog>
<m>
= Israel - 93 ^күнәға/*күнәға$ — this is weird
- 89 ^шүкірлік/*шүкірлік$
- 87 ^Еліше/*Еліше$
- 85 ^қалайша/*қалайша$ — adverbial form of an interogative pronoun "how"/"how so"
- 82 ^Иерусалимдегі/*Иерусалимдегі$ — Иерусалим
<top>
- 78 ^Едом/*Едом$ — Edom
- 77 ^жұрттық/*жұрттық$ —
<attr>
of жұрт - 76 ^о/*о$
75 ^қызметкерлер мен/*қызметкерлер мен$
Are Исраил and Иерусалим not being analysed because of a vowel-harmony-with-и problem? If so, it should be added to the list of phonology problems—there are a couple ways this can be dealt with, and JNW will figure out which is better.
quran
- 975 ^С/*С$
- 972 ^Ғ/*Ғ$
- 177 ^ға/*ға$
83 ^ерекше мейірімді/*ерекше мейірімді$- 75 ^нендей/*нендей$ — a pronoun form, but is it standard? literary? ...?
- 57 ^ның/*ның$
51 ^көктер мен/*көктер мен$49 ^Көктер мен/*Көктер мен$44 ^адам баласы/*адам баласы$- 36 ^Раббына/*Раббына$
34 ^Алладан басқа/*Алладан басқа$28 ^Одан басқа/*Одан басқа$- 25 ^шүкірлік/*шүкірлік$
25 ^адам баласына/*адам баласына$- 23 ^ты/*ты$
- 20 ^ды/*ды$
- 20 ^бұрынғылардың/*бұрынғылардың$ — бұрын
<adv>
+ғы<adj>
<subst>
<pl>
<gen>
, or something like that 20 ^бір мерзімге/*бір мерзімге$- 18 ^күндізді/*күндізді$
- 18 ^көмес/*көмес$
- 18 ^жек/*жек$ — жер көр- ?
- 16 ^көместі/*көместі$
- 16 ^бұрынғылар/*бұрынғылар$ — бұрын
<adv>
+ғы<adj>
<subst>
<pl>
, or something like that - 16 ^аса дана/*аса дана$
azattyq
- 1864 ^ның/*ның$
- 1457 ^тың/*тың$
- 584 ^ға/*ға$
- 582 ^Барлау/*Барлау$
- 574 ^нің/*нің$
- 572 ^барлау/*барлау$
552 ^болып табылады/*болып табылады$- 510 ^түсіндіреді/*түсіндіреді$ — түсін
<v>
<iv>
<caus>
<aor>
<p3>
<sp>
- 510 ^құқын/*құқын$
460 ^күнге дейін/*күнге дейін$- 438 ^сөзінше/*сөзінше$ — hrmm
- 426 ^пайыздық/*пайыздық$
- 420 ^вице/*вице$ part of вице министр or вице президент or the like?
- 415 ^жарақат/*жарақат$
- 414 ^ауған/*ауған$ — "Afghan" as a nationality, with same endings as other nationalities (there's a lexicon for this, right?)
- 391 ^KazakhGold/*KazakhGold$ — put this in as a company, I guess...
- 390 ^әділ/*әділ$ —
<adj>
"just, righteous" - 389 ^қаншалықты/*қаншалықты$ —
<acc>
of қаншалық ← қанша<adv>
- 380 ^тиімді/*тиімді$
- 375 ^құжат/*құжат$
- 375 ^әлдеқайда/*әлдеқайда$ — "somewhere"
- 371 ^ықтимал/*ықтимал$
- 368 ^тағылған/*тағылған$ — тақ
<v>
<tv>
<pass>
+ various GAн forms - 365 ^тиек/*тиек$
Wikipedia 2011
Only the relevant stuff from the top (most stuff is single letters)
665 ^болып табылады/*болып табылады$- 300 ^ның/*ның$
- 278 ^ге/*ге$
- 164 ^ДНҚ/*ДНҚ$
- 159 ^ден/*ден$
- 157 ^ға/*ға$
- 153 ^ақшалай/*ақшалай$
- 126 ^мамандығы/*мамандығы$ — мамандық = "field of specialisation / специальность"
- 114 ^талдау/*талдау$
- 109 ^нақтылы/*нақтылы$
- 109 ^барлау/*барлау$
106 ^жылдан бастап/*жылдан бастап$- 106 ^дың/*дың$
- 99 ^сақтандыру/*сақтандыру$
- 95 ^жеткілікті/*жеткілікті$
- 92 ^нарықтық/*нарықтық$