Difference between revisions of "Kazakh and Tatar/Remaining unanalysed forms"

From Apertium
Jump to navigation Jump to search
 
(101 intermediate revisions by 2 users not shown)
Line 2: Line 2:
This is a list of top remaining unanalysed forms in the [[apertium-kaz]] and [[apertium-tat]] transducers. Taking care of issues in these will improve transducer coverage.
This is a list of top remaining unanalysed forms in the [[apertium-kaz]] and [[apertium-tat]] transducers. Taking care of issues in these will improve transducer coverage.


Forms {{highlight|highlighted in yellow}} are forms that should be pretty easy to deal with, or require very little research to add to the transducer. Forms that are <s>struck through</s> and marked as "HFST" are results of the [[User:Firespeaker/HFST bug|HFST tokenisation bug]] and should be ignored for now. Other <s>struck through</s> issues have been either fixed or delegated to TWOL department. Some stuff that is really basic and should be being analysed is indicated with "!!", and some potential phonology problems are marked too. If problems are found with phonology, related forms should be collected in one place on [[Kazakh and Tatar/TODO#Phonology-related_stuff|the phonology TODO list]].
Forms {{highlight|highlighted in yellow}} are forms that should be pretty easy to deal with, or require very little research to add to the transducer. Forms that are {{highlightError|highlighted in red}} are results of the [[User:Firespeaker/HFST bug|HFST tokenisation bug]] and should be ignored for now. Forms that are <s>struck through</s> have either been fixed or delegated to the TWOL department. Some stuff that is really basic and should be being analysed is indicated with "!!", and some potential phonology problems are marked too. If problems are found with phonology, related forms should be collected in one place on [[Kazakh and Tatar/TODO#Phonology-related_stuff|the phonology TODO list]].


== apertium-kaz ==
== apertium-kaz ==
=== due to HFST bug ===
At r42896/r43149, the following number of unanalysed tokens were due to the HFST bug:
* Әуезов: 1954/25653 (7.62%)
* bible: 8507/70959 (11.99%)
* quran: 1323/12312 (10.75%)
* wikipedia2011: 12720/184026 (6.91%)
* azattyq: 54476/383207 (14.22%)

=== Әуезов ===
=== Әуезов ===
* 70 ^ғой/*ғой$
* 65 ^ды/*ды$
* 65 ^ды/*ды$
* 58 ^жиып/*жиып$
* 58 ^Е/*Е$
* 58 ^Е/*Е$
* {{highlight|34 ^соншалық/*соншалық$}}
* 57 ^Ақжелке/*Ақжелке$
* 47 ^жиын/*жиын$
* 43 ^ертіп/*ертіп$
* 35 ^жиылып/*жиылып$
* {{highlight|34 ^соншалық/*соншалық$}} — pronoun form
* 30 ^ты/*ты$
* 30 ^ты/*ты$
* 28 ^атаулының/*атаулының$
* 28 ^атаулының/*атаулының$
Line 21: Line 23:
* 26 ^ді/*ді$
* 26 ^ді/*ді$
* 26 ^ғып/*ғып$
* 26 ^ғып/*ғып$
* {{highlight|25 ^аттылар/*аттылар$}} — I think this is a literary {{tag|p3}}{{tag|pl}} past tense, which we should at least analyse
* {{highlight|25 ^аттылар/*аттылар$}} — I think this is <s>a literary {{tag|p3}}{{tag|pl}} past tense, which we should at least analyse; either that, or it's</s> <tt>(tt)</tt> атлылар (i.e., those with horses)
* 23 ^бұ/*бұ$
* 23 ^бұ/*бұ$
* 21 ^жиылған/*жиылған$
* 20 ^кей/*кей$
* 18 ^Тектіғұл/*Тектіғұл$
* 18 ^Тектіғұл/*Тектіғұл$
* 18 ^О/*О$
* 18 ^О/*О$
Line 30: Line 30:
* 17 ^о/*о$
* 17 ^о/*о$
* 17 ^қамданып/*қамданып$
* 17 ^қамданып/*қамданып$
* 17 ^біртүрлі/*біртүрлі$

* 17 ^аяңдап/*аяңдап$
Is there a verb жиы- ??
* 16 ^ымырт/*ымырт$
* 16 ^үйіліп/*үйіліп$
* 16 ^Тұңғатар/*Тұңғатар$
* 16 ^сүйкімді/*сүйкімді$
* 16 ^Сәрсен/*Сәрсен$
* 16 ^сақ/*сақ$
* 16 ^қызулы/*қызулы$
* 16 ^қызарып/*қызарып$
* 16 ^кемпір/*кемпір$
* 16 ^кек/*кек$
* {{highlight|16 ^қайтіп/*қайтіп$}} — қайт{{tag|v}}{{tag|iv}}/{{tag|tv}} (takes front vowel endings), verbal form of ~қандай (< *қай ет-)
* 16 ^зекіп/*зекіп$
* 16 ^Жұмағұл/*Жұмағұл$
* 16 ^жарқ/*жарқ$
* 16 ^жалпақ/*жалпақ$
* 16 ^атшабар/*атшабар$
* 15 ^торы/*торы$
* 15 ^томсарып/*томсарып$
* 15 ^тілек/*тілек$
* 15 ^тақап/*тақап$
* 15 ^сыбаға/*сыбаға$
* 15 ^сұрланып/*сұрланып$
* 15 ^сорлы/*сорлы$
* 15 ^өңшең/*өңшең$
* 15 ^мінгізіп/*мінгізіп$
* 15 ^исі/*исі$
* 15 ^жылдам/*жылдам$
* 15 ^жағалап/*жағалап$


=== bible ===
=== bible ===
* 93 ^күнәға/*күнәға$ — phonology?
* <s>{{highlight|897 ^Исраилдің/*Исраилдің$}} — Исраил{{tag|ant}}{{tag|m}} = Israel</s>
* 319 ^іспетті/*іспетті$
* 242 ^Таурат/*Таурат$
* {{highlight|237 ^Иерусалимге/*Иерусалимге$}} — Иерусалим{{tag|top}}
* 198 ^гөр/*гөр$
* {{highlight|177 ^Иерусалимнің/*Иерусалимнің$}} — Иерусалим{{tag|top}}
* {{highlight|172 ^жек/*жек$}} — жек көр- ?
* {{highlight|163 ^Иерусалимде/*Иерусалимде$}} — Иерусалим{{tag|top}}
* {{highlight|160 ^әркім/*әркім$}} — a pronoun "anyone"
* 156 ^ертіп/*ертіп$
* {{highlight|150 ^Ей/*Ей$}} — {{tag|ij}} ?
* <s>{{highlight|136 ^Исраилге/*Исраилге$}} — Исраил{{tag|ant}}{{tag|m}} = Israel</s>
* 111 ^Манаса/*Манаса$
* {{highlight|105 ^леуіліктер/*леуіліктер$}} Леуі is the name of a tribe ("Levi", after a patriarch?); леуіліктер is the Levites
* <s>{{highlight|96 ^Исраилді/*Исраилді$}} — Исраил{{tag|ant}}{{tag|m}} = Israel</s>
* 93 ^күнәға/*күнәға$ — this is weird
* 89 ^шүкірлік/*шүкірлік$
* 87 ^Еліше/*Еліше$
* 87 ^Еліше/*Еліше$
* {{highlight|85 ^қалайша/*қалайша$}} — adverbial form of an interogative pronoun "how"/"how so"
* 85 ^қалайша/*қалайша$ — adverbial form of an interogative pronoun "how"/"how so"
* {{highlight|82 ^Иерусалимдегі/*Иерусалимдегі$}} — Иерусалим{{tag|top}}
* {{highlight|78 ^Едом/*Едом$}} — [http://en.wikipedia.org/wiki/Edom Edom]
* {{highlight|78 ^Едом/*Едом$}} — [http://en.wikipedia.org/wiki/Edom Edom]
* {{highlight|77 ^жұрттық/*жұрттық$}} — {{tag|attr}} of жұрт
* {{highlight|76 ^о/*о$}} — {{tag|ij}} ?
* {{highlightError|75 ^қызметкерлер мен/*қызметкерлер мен$}}
* 76 ^о/*о$
* {{highlightError|73 ^сұрақ қойды/*сұрақ қойды$}}
* <s>75 ^қызметкерлер мен/*қызметкерлер мен$</s> — HFST
* 72 ^перғауынның/*перғауынның$
* 70 ^перғауын/*перғауын$
* 70 ^жек көрінішті/*жек көрінішті$
* 69 ^тағзым/*тағзым$
* {{highlight|68 ^қиратып/*қиратып$}} — қира{{tag|v}}{{tag|iv}}({{tag|caus}}{{tag|gna}})
* {{highlightError|68 ^бас тартып/*бас тартып$}}
* 68 ^Бағал/*Бағал$
* 65 ^парызшылдар/*парызшылдар$
* 64 ^Жосия/*Жосия$
* 64 ^арамданған/*арамданған$
* {{highlight|62 ^санақтан/*санақтан$}} — санақ{{tag|n}}
* 62 ^Рубен/*Рубен$
* 62 ^мүсіндерін/*мүсіндерін$
* 61 ^мәйіті/*мәйіті$
* {{highlight|61 ^жасақшылар/*жасақшылар$}} — жасақшы{{tag|n}} "дружинник"
* 61 ^Ғилақад/*Ғилақад$
* {{highlight|60 ^ризашылық/*ризашылық$}} — {{tag|n}}
* 60 ^қастерлеп/*қастерлеп$
* 59 ^філістір/*філістір$
* 59 ^Еху/*Еху$
* 58 ^Тир/*Тир$
* {{highlightError|58 ^күнге дейін/*күнге дейін$}}
* 58 ^арамдығынан/*арамдығынан$
* 58 ^Абессалом/*Абессалом$
* 57 ^саф/*саф$
* 57 ^пайғамбарлық/*пайғамбарлық$
* 57 ^күнәларының/*күнәларының$ — phonology?
* {{highlight|57 ^Евфрат/*Евфрат$}} — {{tag|top}}
* {{highlight|57 ^Аумин/*Аумин$}} — {{tag|ij}}?
* 56 ^філістірлердің/*філістірлердің$
* 56 ^Тақсыр/*Тақсыр$
* 56 ^ғибадатхананың/*ғибадатхананың$
* 56 ^астарлы/*астарлы$
* 55 ^жиренішті/*жиренішті$


=== quran ===
=== quran ===
Line 63: Line 108:
* 972 ^Ғ/*Ғ$
* 972 ^Ғ/*Ғ$
* 177 ^ға/*ға$
* 177 ^ға/*ға$
* <s>83 ^ерекше мейірімді/*ерекше мейірімді$</s>
* {{highlightError|83 ^ерекше мейірімді/*ерекше мейірімді$}}
* {{highlight|75 ^нендей/*нендей$}} — a pronoun form, but is it standard? literary? ...?
* {{highlight|75 ^нендей/*нендей$}} — a pronoun form, but is it standard? literary? ...?
* 57 ^ның/*ның$
* 57 ^ның/*ның$
* <s>51 ^көктер мен/*көктер мен$</s>
* {{highlightError|51 ^көктер мен/*көктер мен$}}
* <s>49 ^Көктер мен/*Көктер мен$</s>
* {{highlightError|49 ^Көктер мен/*Көктер мен$}}
* <s>44 ^адам баласы/*адам баласы$</s>
* {{highlightError|44 ^адам баласы/*адам баласы$}}
* 36 ^Раббына/*Раббына$
* 36 ^Раббына/*Раббына$
* <s>34 ^Алладан басқа/*Алладан басқа$</s>
* {{highlightError|34 ^Алладан басқа/*Алладан басқа$}}
* <s>28 ^Одан басқа/*Одан басқа$</s>
* {{highlightError|28 ^Одан басқа/*Одан басқа$}}
* 25 ^шүкірлік/*шүкірлік$
* 25 ^шүкірлік/*шүкірлік$
* <s>25 ^адам баласына/*адам баласына$</s>
* {{highlightError|25 ^адам баласына/*адам баласына$}}
* 23 ^ты/*ты$
* 23 ^ты/*ты$
* 20 ^ды/*ды$
* 20 ^ды/*ды$
* {{highlight|20 ^бұрынғылардың/*бұрынғылардың$}} — бұрын{{tag|adv}}+ғы{{tag|adj}}{{tag|subst}}{{tag|pl}}{{tag|gen}}, or something like that
* {{highlight|20 ^бұрынғылардың/*бұрынғылардың$}} — бұрын{{tag|adv}}+ғы{{tag|adj}}{{tag|subst}}{{tag|pl}}{{tag|gen}}, or something like that
* <s>20 ^бір мерзімге/*бір мерзімге$</s>
* {{highlightError|20 ^бір мерзімге/*бір мерзімге$}}
* 18 ^күндізді/*күндізді$
* 18 ^күндізді/*күндізді$
* 18 ^көмес/*көмес$
* 18 ^көмес/*көмес$
Line 83: Line 128:
* 16 ^көместі/*көместі$
* 16 ^көместі/*көместі$
* {{highlight|16 ^бұрынғылар/*бұрынғылар$}} — бұрын{{tag|adv}}+ғы{{tag|adj}}{{tag|subst}}{{tag|pl}}, or something like that
* {{highlight|16 ^бұрынғылар/*бұрынғылар$}} — бұрын{{tag|adv}}+ғы{{tag|adj}}{{tag|subst}}{{tag|pl}}, or something like that
* 16 ^аса дана/*аса дана$
* {{highlightError|16 ^аса дана/*аса дана$}}


What's көмес mean?
What's көмес mean?
Line 89: Line 134:
=== azattyq ===
=== azattyq ===
* 1864 ^ның/*ның$
* 1864 ^ның/*ның$
* 1457 ^тың/*тың$
* 599 ^ға/*ға$
* 584 ^ға/*ға$
* {{highlight|582 ^Барлау/*Барлау$}} — [http://sozdik.kz/ru/dictionary/translate/kk/ru/%D0%B1%D0%B0%D1%80%D0%BB%D0%B0%D1%83/ барла]{{tag|v}}{{tag|tv}}, [http://sozdik.kz/ru/dictionary/translate/kk/ru/%D0%B1%D0%B0%D1%80%D0%BB%D0%B0%D1%83/ барлау]{{tag|n}}
* 574 ^нің/*нің$
* 574 ^нің/*нің$
* {{highlightError|552 ^болып табылады/*болып табылады$}}
* {{highlight|572 ^барлау/*барлау$}} — [http://sozdik.kz/ru/dictionary/translate/kk/ru/%D0%B1%D0%B0%D1%80%D0%BB%D0%B0%D1%83/ барла]{{tag|v}}{{tag|tv}}, [http://sozdik.kz/ru/dictionary/translate/kk/ru/%D0%B1%D0%B0%D1%80%D0%BB%D0%B0%D1%83/ барлау]{{tag|n}}
* {{highlightError|460 ^күнге дейін/*күнге дейін$}}
* <s>552 ^болып табылады/*болып табылады$</s>
* {{highlightError|348 ^мүмкін деген/*мүмкін деген$}}
* {{highlight|510 ^түсіндіреді/*түсіндіреді$}} — түсін{{tag|v}}{{tag|iv}}{{tag|caus}}{{tag|aor}}{{tag|p3}}{{tag|sp}}
* 510 ^құқын/*құқын$
* 345 ^і/*і$
* {{highlightError|335 ^мүмкін деп/*мүмкін деп$}}
* <s>460 ^күнге дейін/*күнге дейін$</s>
* 313 ^на/*на$
* 438 ^сөзінше/*сөзінше$ — hrmm, we probably need to deal with this morphology somehow? But how?
* 310 ^ды/*ды$
* 426 ^пайыздық/*пайыздық$ — hrmm, we probably need to deal with this morphology somehow? But how?
* {{highlightError|299 ^кем дегенде/*кем дегенде$}}
* {{highlight|420 ^вице/*вице$}} part of вице министр or вице президент or the like?
* {{highlightError|289 ^Ресей мен/*Ресей мен$}}
* 415 ^жарақат/*жарақат$
* {{highlightError|278 ^Дмитрий Медведев/*Дмитрий Медведев$}}
* {{highlight|414 ^ауған/*ауған$}} — "Afghan" as a nationality, with same endings as other nationalities (there's a lexicon for this, right?)
* {{highlightError|270 ^бас тартты/*бас тартты$}}
* {{highlight|391 ^KazakhGold/*KazakhGold$}} — put this in as a company, I guess...
* 247 ^com/*com$
* {{highlight|390 ^әділ/*әділ$}} — {{tag|adj}} "just, righteous"
* 233 ^А/*А$
* {{highlight|389 ^қаншалықты/*қаншалықты$}} — {{tag|acc}} of қаншалық ← қанша{{tag|adv}}
* {{highlightError|228 ^жылдан бастап/*жылдан бастап$}}
* 380 ^тиімді/*тиімді$
* 220 ^қа/*қа$
* {{highlight|375 ^құжат/*құжат$}} — [http://sozdik.kz/ru/dictionary/translate/ru/kk/%D2%9B%D2%B1%D0%B6%D0%B0%D1%82/ құжат]{{tag|n}}
* 213 ^К/*К$
* {{highlight|375 ^әлдеқайда/*әлдеқайда$}} — "somewhere"
* {{highlightError|201 ^Осыған байланысты/*Осыған байланысты$}}
* 371 ^ықтимал/*ықтимал$
* 192 ^нен/*нен$
* {{highlight|368 ^тағылған/*тағылған$}} — тақ{{tag|v}}{{tag|tv}}{{tag|pass}} + various GAн forms
* 365 ^тиек/*тиек$
* 187 ^ы/*ы$
* 177 ^ді/*ді$
* 174 ^с/*с$
* {{highlightError|174 ^айып тағылған/*айып тағылған$}}
* 174 ^Eni/*Eni$
* 173 ^ша/*ша$
* 168 ^Н/*Н$
* <s>{{highlight|166 ^тосқауыл/*тосқауыл$}} — {{tag|n}} "hindrance, obstacle"</s>
* <s>{{highlight|153 ^Жовтистің/*Жовтистің$}} — needed %{☭%}</s>
* <s>151 ^таражға/*таражға$ — талан-тараж</s>
* <s>{{highlight|149 ^журналисі/*журналисі$}} — журналист:журналис Dir/LR</s>
* 148 ^сыңайлы/*сыңайлы$
* <s>{{highlight|139 ^зайыбы/*зайыбы$}} — зайып{{tag|n}} "spouse"</s>
* {{highlight|139 ^жылдам/*жылдам$}} — {{tag|adj}}/{{tag|adv}}?
* {{highlight|137 ^разрядты/*разрядты$}} — разряд{{tag|n}}
* 137 ^атышулы/*атышулы$
* {{highlight|136 ^дерлік/*дерлік$}} — {{tag|adv}} ("almost")
* {{highlightError|134 ^болып табылатын/*болып табылатын$}}
* 134 ^S/*S$
* 133 ^The/*The$
* 130 ^қоқан/*қоқан$
* 130 ^International/*International$
* 129 ^салысымен/*салысымен$
* 127 ^слова/*слова$
* {{highlightError|125 ^емес екенін/*емес екенін$}}
* 125 ^еді деп/*еді деп$
* {{highlightError|123 ^компаниясының бас/*компаниясының бас$}}
* 123 ^В/*В$
* {{highlightError|122 ^келеді деп/*келеді деп$}}
* 120 ^құқыққорғау/*құқыққорғау$
* {{highlightError|119 ^Назарбаев пен/*Назарбаев пен$}}
* {{highlightError|118 ^жылдың басында/*жылдың басында$}}
* <s>{{highlight|117 ^Курамшиннің/*Курамшиннің$}} — phonotactics for NP-COG-OB</s>
* {{highlightError|117 ^екен деп/*екен деп$}}
* {{highlightError|117 ^білім беру/*білім беру$}}
* {{highlightError|117 ^бас тартып/*бас тартып$}}
* {{highlight|114 ^Мәсімовтің/*Мәсімовтің$}} — wtf phonology??
* {{highlight|114 ^Кейінірек/*Кейінірек$}} — кейін{{tag|adv}} should take comparative
* <s>{{highlight|113 ^отставкаға/*отставкаға$}} — phonology fixed</s>
* 112 ^Қ/*Қ$
* <s>{{highlight|110 ^Януковичтің/*Януковичтің$}} — added, and fixed phonotactics for NP-PAT-VICH</s>
* {{highlightError|110 ^компаниясының басшысы/*компаниясының басшысы$}}
* {{highlightError|110 ^басқармасының бастығы/*басқармасының бастығы$}}
* {{highlight|106 ^кейінірек/*кейінірек$}} — кейін{{tag|adv}} should take comparative
* {{highlight|106 ^кейбірі/*кейбірі$}} — check morphotactics
* {{highlightError|106 ^аса маңызды/*аса маңызды$}}
* 105 ^ос/*ос$
* {{highlight|105 ^болатындығын/*болатындығын$}} — do we need {E}т{I}н>{L}{I}{K} gerund?
* 103 ^дағы/*дағы$
* 102 ^ты/*ты$
* 101 ^Республики/*Республики$
* {{highlight|101 ^әрқайсысы/*әрқайсысы$}} — check morphotactics
* {{highlightError|101 ^айының басында/*айының басында$}}
* {{highlightError|99 ^мәртебесін беру/*мәртебесін беру$}}
* {{highlight|99 ^кейбіреулері/*кейбіреулері$}} — check morphotactics
* {{highlightError|99 ^істер департаментінің/*істер департаментінің$}}
* 98 ^сэр/*сэр$
* 97 ^сүргін/*сүргін$
* {{highlightError|97 ^айып тағылды/*айып тағылды$}}
* {{highlight|96 ^белорусь/*белорусь$}}
* 93 ^С/*С$
* 93 ^ны/*ны$
* 93 ^атағын/*атағын$
* {{highlightError|92 ^кінәлі деп/*кінәлі деп$}}
* {{highlightError|92 ^жан басына/*жан басына$}}
* {{highlight|92 ^бұрынғыдан/*бұрынғыдан$}} — бұрын takes GI, which takes {{tag|subst}}, which takes {{tag|abl}} (check morphotactics)
* {{highlightError|91 ^өтеді деп/*өтеді деп$}}
* 90 ^сілкінісі/*сілкінісі$
* 90 ^жанкешті/*жанкешті$
* 90 ^Д/*Д$
* {{highlight|90 ^ақырғы/*ақырғы$}} — ақыр takes GI
* {{highlightError|89 ^Дмитрий Медведевтің/*Дмитрий Медведевтің$}}
* {{highlightError|89 ^берді деп/*берді деп$}}
* {{highlight|87 ^қырым/*қырым$}} — Crimea?
* {{highlightError|87 ^билік пен/*билік пен$}}
* {{highlightError|87 ^айып тағылып/*айып тағылып$}}
* 86 ^Р/*Р$
* 86 ^о/*о$
* {{highlight|86 ^әділдік/*әділдік$}} — {{tag|n}}
* 86 ^B/*B$
* 85 ^науқаны/*науқаны$
* {{highlightError|85 ^қаржы дағдарысы/*қаржы дағдарысы$}}
* {{highlight|85 ^жапон/*жапон$}}
* 85 ^бағамы/*бағамы$
* {{highlight|84 ^юань/*юань$}}
* {{highlight|84 ^санитарлық/*санитарлық$}}
* {{highlightError|84 ^жылдардың басында/*жылдардың басында$}}
* 84 ^желеумен/*желеумен$
* {{highlight|83 ^экипаж/*экипаж$}} — {{tag|n}}
* 83 ^үлгірген/*үлгірген$
* {{highlight|83 ^теміржол/*теміржол$}} — {{tag|n}}
* 83 ^одақтастары/*одақтастары$
* 83 ^қолма/*қолма$
* 83 ^қолайсыз/*қолайсыз$
* 83 ^жанармай/*жанармай$
* {{highlight|83 ^былайша/*былайша$}} — = бұлайша
* 83 ^барша/*барша$
* 83 ^БАБАМҚОЖА/*БАБАМҚОЖА$
* 83 ^алаңдатып/*алаңдатып$
* {{highlight|83 ^айла/*айла$}} — {{tag|n}}
* <s>{{highlight|82 ^Экономистің/*Экономистің$}} — needed to be N5</s>
* 82 ^шариғат/*шариғат$
* {{highlight|82 ^хиджаб/*хиджаб$}} — {{tag|n}}
* 82 ^тұсау/*тұсау$
* 82 ^төтеп/*төтеп$
* <s>{{highlight|82 ^Нью-Йорк таймс/*Нью-Йорк таймс$}}</s>
* 82 ^нақ/*нақ$
* 82 ^құқылы/*құқылы$
* 82 ^етене/*етене$
* 81 ^цехының/*цехының$
* 81 ^ушығып/*ушығып$
* 81 ^тығырыққа/*тығырыққа$
* {{highlight|81 ^қытайлықтар/*қытайлықтар$}} — check morphotactics
* {{highlight|81 ^күзде/*күзде$}} — check morphotactics
* 81 ^кішігірім/*кішігірім$
* {{highlight|81 ^ертеңгі/*ертеңгі$}} — ертең{{tag|adv}} takes GI
* {{highlight|81 ^әрең/*әрең$}} — {{tag|adv}} "barely" (??)
* {{highlight|81 ^даяр/*даяр$}} — {{tag|adj}} = дайын


It seems that case endings written separately from some words is a semi-standard convention (it's occurring at least some in all the corpora). We should figure out where this is happening and see if it's something we can deal with.
{{highlight|It seems that case endings written separately from some words is a semi-standard convention (it's occurring at least some in all the corpora). We should figure out where this is happening and see if it's something we can deal with.}}


=== Wikipedia 2011 ===
=== Wikipedia 2011 ===
Only the relevant stuff from the top (most stuff is single letters)
Only the relevant stuff from the top (single letters removed)
* <s>665 ^болып табылады/*болып табылады$</s>
* {{highlightError|665 ^болып табылады/*болып табылады$}}
* 300 ^ның/*ның$
* 300 ^ның/*ның$
* 278 ^ге/*ге$
* 278 ^ге/*ге$
* 164 ^ДНҚ/*ДНҚ$
* 158 ^ден/*ден$
* 159 ^ден/*ден$
* 157 ^ға/*ға$
* 157 ^ға/*ға$
* {{highlightError|106 ^жылдан бастап/*жылдан бастап$}}
* 153 ^ақшалай/*ақшалай$
* {{highlight|126 ^мамандығы/*мамандығы$}} — мамандық = "field of specialisation / специальность"
* 114 ^талдау/*талдау$
* 109 ^нақтылы/*нақтылы$
* 109 ^барлау/*барлау$
* <s>106 ^жылдан бастап/*жылдан бастап$</s>
* 106 ^дың/*дың$
* 106 ^дың/*дың$
* 99 ^сақтандыру/*сақтандыру$
* 91 ^қа/*қа$
* 95 ^жеткілікті/*жеткілікті$
* 90 ^нің/*нің$
* {{highlightError|86 ^тығыз байланысты/*тығыз байланысты$}}
* 92 ^нарықтық/*нарықтық$
* {{highlightError|84 ^болып табылатын/*болып табылатын$}}
* {{highlightError|82 ^аса маңызды/*аса маңызды$}}
* 81 ^га/*га$
* <s>72 ^сутек/*сутек$</s>
* <s>72 ^қосалқы/*қосалқы$</s>
* <s>71 ^құрамдас/*құрамдас$</s>
* <s>70 ^шикізат/*шикізат$</s>
* <s>70 ^төлем/*төлем$</s>
* <s>{{highlight|69 ^ерекшеленеді/*ерекшеленеді$}} — ерекшеле{{tag|v}}{{tag|tv}}({{tag|pass}}{{tag|aor}}{{tag|p3sp}})</s>
* <s>{{highlight|68 ^мазмұны/*мазмұны$}} — мазмұн{{tag|n}}</s>
* <s>68 ^ажыратылады/*ажыратылады$</s>
* 67 ^на/*на$
* <s>67 ^егіншілік/*егіншілік$</s>
* <s>67 ^айырмашылығы/*айырмашылығы$</s>
* <s>65 ^үстемдік/*үстемдік$</s>
* {{highlightError|65 ^ғасырдың басында/*ғасырдың басында$}}
* <s>{{highlight|64 ^тәсілі/*тәсілі$}} — тәсіл{{tag|n}}</s>
* 64 ^сақ/*сақ$
* 64 ^мекендеген/*мекендеген$
* 64 ^көршілес/*көршілес$
* 64 ^кешені/*кешені$
* 64 ^ибн/*ибн$
* 64 ^жырау/*жырау$
* 63 ^бірыңғай/*бірыңғай$
* {{highlightError|63 ^білім беру/*білім беру$}}
* {{highlight|63 ^адамгершілік/*адамгершілік$}} — адамгершілік{{tag|n}}
* 62 ^халықтық/*халықтық$
* 62 ^өлшемі/*өлшемі$
* 61 ^біркелкі/*біркелкі$
* 60 ^дыбыстық/*дыбыстық$
* 60 ^Бүл/*Бүл$
* {{highlight|59 ^сипатталады/*сипатталады$}} — сипатта{{tag|v}}{{tag|tv}}({{tag|pass}}{{tag|aor}}{{tag|p3sp}})
* 58 ^ортағасырлық/*ортағасырлық$
* {{highlightError|58 ^күнге дейін/*күнге дейін$}}
* {{highlight|57 ^шешен/*шешен$}} — шешен{{tag|n}}
* 57 ^өздігінен/*өздігінен$ — өздік{{tag|n}}


=== spectie's stuff ===
=== spectie's stuff ===
Line 145: Line 335:
* 2 ^Бесобаны/*Бесобаны$
* 2 ^Бесобаны/*Бесобаны$
* 2 ^2009/*2009$
* 2 ^2009/*2009$
* <s>1 ^үйінің белсенді/*үйінің белсенді$</s>
* {{highlightError|1 ^үйінің белсенді/*үйінің белсенді$}}
* 1 ^тазалайды/*тазалайды$
* 1 ^тазалайды/*тазалайды$
* 1 ^соманы/*соманы$
* 1 ^соманы/*соманы$
Line 153: Line 343:
* 1 ^өкілдіктерін/*өкілдіктерін$
* 1 ^өкілдіктерін/*өкілдіктерін$
* 1 ^мердігер/*мердігер$
* 1 ^мердігер/*мердігер$
* <s>1 ^мектеп пен/*мектеп пен$</s>
* {{highlightError|1 ^мектеп пен/*мектеп пен$}}
* 1 ^Майқұдық/*Майқұдық$
* 1 ^Майқұдық/*Майқұдық$
* 1 ^Қытайдағыдай/*Қытайдағыдай$
* 1 ^Қытайдағыдай/*Қытайдағыдай$
* 1 ^қызметтік/*қызметтік$
* 1 ^қызметтік/*қызметтік$
* <s>1 ^құрған бастамашыл/*құрған бастамашыл$</s>
* {{highlightError|1 ^құрған бастамашыл/*құрған бастамашыл$}}
* 1 ^көпқабатты/*көпқабатты$
* 1 ^көпқабатты/*көпқабатты$
* <s>1 ^комиссиясының басшылығы/*комиссиясының басшылығы$</s>
* {{highlightError|1 ^комиссиясының басшылығы/*комиссиясының басшылығы$}}
* 1 ^қиратылып/*қиратылып$
* 1 ^қиратылып/*қиратылып$
* 1 ^кешеніне/*кешеніне$
* 1 ^кешеніне/*кешеніне$
Line 167: Line 357:
* 1 ^қадағаламаған/*қадағаламаған$
* 1 ^қадағаламаған/*қадағаламаған$
* 1 ^жазаласа/*жазаласа$
* 1 ^жазаласа/*жазаласа$
* <s>1 ^еді деп/*еді деп$</s>
* {{highlightError|1 ^еді деп/*еді деп$}}
* 1 ^дәлелденді/*дәлелденді$
* 1 ^дәлелденді/*дәлелденді$
* 1 ^дәлелденген/*дәлелденген$
* 1 ^дәлелденген/*дәлелденген$
Line 175: Line 365:
* 1 ^бөлмелі/*бөлмелі$
* 1 ^бөлмелі/*бөлмелі$
* 1 ^біржола/*біржола$
* 1 ^біржола/*біржола$
* <s>1 ^бізге мемлекеттік/*бізге мемлекеттік$</s>
* {{highlightError|1 ^бізге мемлекеттік/*бізге мемлекеттік$}}
* 1 ^Бесобада/*Бесобада$
* 1 ^Бесобада/*Бесобада$
* 1 ^ауладағы/*ауладағы$
* 1 ^ауладағы/*ауладағы$
* <s>1 ^Аталған бап/*Аталған бап$</s>
* {{highlightError|1 ^Аталған бап/*Аталған бап$}}
* 1 ^Алтынбеков/*Алтынбеков$
* 1 ^Алтынбеков/*Алтынбеков$
* <s>1 ^айып тағылған/*айып тағылған$</s>
* {{highlightError|1 ^айып тағылған/*айып тағылған$}}
* 1 ^80/*80$
* 1 ^80/*80$
* 1 ^40/*40$
* 1 ^40/*40$
Line 224: Line 414:


=== new testament ===
=== new testament ===

* {{highlight|1279 ^ѳчен/*ѳчен$}}
* {{highlight|420 ^чѳнки/*чѳнки$}}
* 403 ^Мәсих/*Мәсих$
* 403 ^Мәсих/*Мәсих$
* {{highlight|390 ^Чѳнки/*Чѳнки$}}
* 264 ^Аллаһыга/*Аллаһыга$
* 264 ^Аллаһыга/*Аллаһыга$
* {{highlight|225 ^бѳтен/*бѳтен$}}
* 190 ^Паул/*Паул$
* 191 ^хѳкем/*хѳкем$
* 159 ^Петер/*Петер$
* 113 ^Яхъя/*Яхъя$
* {{highlight|190 ^Паул/*Паул$}} — {{tag|cog}}{{tag|m}}
* {{highlight|159 ^Петер/*Петер$}} — {{tag|cog}}{{tag|m}}
* {{highlight|118 ^кѳн/*кѳн$}} — !!
* {{highlight|113 ^Яхъя/*Яхъя$}} — {{tag|cog}}{{tag|m}}
* {{highlight|111 ^кѳнне/*кѳнне$}} — !!
* 108 ^берсе/*берсе$
* 108 ^берсе/*берсе$
* 102 ^гѳнаһ/*гѳнаһ$
* 97 ^Аллаһыдан/*Аллаһыдан$
* 97 ^Аллаһыдан/*Аллаһыдан$
* 90 ^шаһитлек/*шаһитлек$
* 90 ^шаһитлек/*шаһитлек$
* 89 ^Мәсихнең/*Мәсихнең$
* 89 ^Мәсихнең/*Мәсихнең$
* {{highlight|88 ^Муса/*Муса$}} — {{tag|cog}}{{tag|m}}
* 88 ^Муса/*Муса$
* {{highlight|84 ^ѳч/*ѳч$}} — !!
* {{highlight|77 ^кѳчле/*кѳчле$}}
* 73 ^ллә/*ллә$
* 73 ^ллә/*ллә$
* 69 ^руханилар/*руханилар$
* {{highlight|73 ^Иерусалимга/*Иерусалимга$}} — phonology?
* 73 ^бѳек/*бѳек$
* 66 ^ы/*ы$
* 66 ^Шимун/*Шимун$
* {{highlight|71 ^ѳстенә/*ѳстенә$}} — !!
* 60 ^Пилат/*Пилат$
* 57 ^хакына/*хакына$
* 57 ^каршында/*каршында$
* 56 ^Мәсихкә/*Мәсихкә$
* 55 ^гыйбрәтле/*гыйбрәтле$
* 52 ^явыз/*явыз$
* 52 ^фарисейләр/*фарисейләр$
* 49 ^Һируд/*Һируд$
* 49 ^һәммәсе/*һәммәсе$
* 49 ^хачка/*хачка$
* 48 ^Давыт/*Давыт$
* 47 ^канунчылар/*канунчылар$
* 43 ^Паулны/*Паулны$
* 43 ^дучар/*дучар$
* 42 ^берсен/*берсен$
* 39 ^иминлек/*иминлек$
* 39 ^игелекле/*игелекле$
* 39 ^ә/ә<cnjcoo>/ә<ij>$^ллә/*ллә$
* 39 ^Аллаһысы/*Аллаһысы$
* 36 ^Имандашлар/*Имандашлар$
* 35 ^Паулның/*Паулның$
* 34 ^барысын/*барысын$
* 33 ^язылганча/*язылганча$
* 33 ^һәммә/*һәммә$
* 33 ^савыктыра/*савыктыра$
* 33 ^Мәсихне/*Мәсихне$
* 33 ^Барнаб/*Барнаб$
* 32 ^икърар/*икърар$
* 31 ^шакшы/*шакшы$
* 31 ^рәсүлләр/*рәсүлләр$
* 31 ^дөньяда/*дөньяда$


=== quran ===
=== quran ===
Line 280: Line 490:


=== news ===
=== news ===

* 2743 ^берсе/*берсе$
* 2743 ^берсе/*берсе$
* 2342 ^нче/*нче$
* 2342 ^нче/*нче$
* {{highlight|1889 ^аенда/*аенда$}} — phonology?
* {{highlight|1732 ^уңаеннан/*уңаеннан$}} — phonology?
* 1606 ^биредә/*биредә$
* 1606 ^биредә/*биредә$
* 1443 ^Чаллы/*Чаллы$
* 1443 ^Чаллы/*Чаллы$
* 1326 ^уку/*уку$
* 1311 ^уку/*уку$
* 1310 ^булганча/*булганча$
* 1310 ^булганча/*булганча$
* {{highlight|1269 ^проекты/*проекты$}} — phonology?
* 1245 ^ның/*ның$
* 1245 ^ның/*ның$
* 1225 ^Биредә/*Биредә$
* 1225 ^Биредә/*Биредә$
* 1111 ^сәбәпле/*сәбәпле$
* 1111 ^сәбәпле/*сәбәпле$
* {{highlight|1091 ^университеты/*университеты$}} — phonology?
* 1063 ^хәбәр иткәнчә/*хәбәр иткәнчә$
* 1063 ^хәбәр иткәнчә/*хәбәр иткәнчә$
* 1047 ^Г/*Г$
* 1047 ^Г/*Г$
* 1024 ^Тукай/*Тукай$
* 1024 ^Тукай/*Тукай$
* 982 ^А/*А$
* 982 ^А/*А$
* {{highlight|980 ^студентлар/*студентлар$}} — phonology?
* 959 ^Дмитрий/*Дмитрий$
* 959 ^Дмитрий/*Дмитрий$
* 952 ^Татнефть/*Татнефть$
* 952 ^Татнефть/*Татнефть$
* {{highlight|951 ^фестивале/*фестивале$}} phonology?
* {{highlight|951 ^фестивале/*фестивале$}} - phonology
* 924 ^КАМАЗ/*КАМАЗ$
* 924 ^КАМАЗ/*КАМАЗ$
* 918 ^хакы/*хакы$
* 918 ^хакы/*хакы$
* 893 ^Р/*Р$
* 893 ^Р/*Р$
* 884 ^Метшин/*Метшин$
* 881 ^җәмгыяте/*җәмгыяте$
* 847 ^каршындагы/*каршындагы$
* 844 ^Ульяновски/*Ульяновски$
* 838 ^Ауропа/*Ауропа$
* <s>835 ^комплексы/*комплексы$</s>
* 833 ^Илдар/*Илдар$
* 828 ^Илсур/*Илсур$
* 827 ^югары уку/*югары уку$
* 807 ^ниятли/*ниятли$
* 797 ^Римма/*Римма$
* <s>782 ^институты/*институты$</s>
* 770 ^Әлмәт/*Әлмәт$
* 768 ^кагылышлы/*кагылышлы$
* <s>768 ^журналистлар/*журналистлар$</s>
* 757 ^информ/*информ$
* 753 ^белдергәнчә/*белдергәнчә$
* 747 ^эшлекле/*эшлекле$
* 740 ^В/*В$
* 736 ^үткәнчә/*үткәнчә$
* 733 ^сумлык/*сумлык$
* 723 ^Фәнис/*Фәнис$
* 719 ^мэры/*мэры$
* 717 ^нә/*нә$
* 700 ^каршында/*каршында$
* 698 ^бәясе/*бәясе$

=== Wikipedia ===
* {{highlight|302 ^туа/*туа$}} — phonology?
* {{highlight|128 ^әдәбияты/*әдәбияты$}} — phonology?
* {{highlight|124 ^дөньяга/*дөньяга$}} — phonology?
* 115 ^Г/*Г$
* 89 ^нче/*нче$
* {{highlight|88 ^декабрендә/*декабрендә$}}
* {{highlight|83 ^июлендә/*июлендә$}}
* {{highlight|80 ^октябрендә/*октябрендә$}}
* {{highlight|80 ^ноябрендә/*ноябрендә$}}
* 77 ^берсе/*берсе$
* 75 ^А/*А$
* {{highlight|74 ^июнендә/*июнендә$}}
* {{highlight|69 ^сентябрендә/*сентябрендә$}}
* 67 ^Тукай/*Тукай$
* {{highlight|65 ^февралендә/*февралендә$}}
* 60 ^В/*В$
* 58 ^эшкәрткеч/*эшкәрткеч$
* 55 ^Н/*Н$
* {{highlight|55 ^апрелендә/*апрелендә$}}
* 54 ^өязе/*өязе$
* 51 ^Габдулла/*Габдулла$
* 50 ^б./*б.$
* {{highlight|47 ^укыта/*укыта$}}
* 47 ^сәбәпле/*сәбәпле$
* 45 ^шигъри/*шигъри$
* 42 ^Ф/*Ф$
* 41 ^һ./*һ.$
* {{highlight|41 ^туып/*туып$}}
* 41 ^С/*С$
* 41 ^Муса/*Муса$
* 37 ^училищесында/*училищесында$
* 37 ^Сембер/*Сембер$
* 37 ^каршындагы/*каршындагы$
* 36 ^педагогия/*педагогия$
* 36 ^Кайбыч/*Кайбыч$
* 36 ^Арча/*Арча$
* 35 ^Р/*Р$
* 35 ^Олимпия/*Олимпия$
* 34 ^мулла/*мулла$
* 34 ^йөри/*йөри$
* 34 ^Әлмәт/*Әлмәт$

[[Category:Kazakh and Tatar|*]]

Latest revision as of 11:34, 13 April 2013

This is a list of top remaining unanalysed forms in the apertium-kaz and apertium-tat transducers. Taking care of issues in these will improve transducer coverage.

Forms highlighted in yellow are forms that should be pretty easy to deal with, or require very little research to add to the transducer. Forms that are highlighted in red are results of the HFST tokenisation bug and should be ignored for now. Forms that are struck through have either been fixed or delegated to the TWOL department. Some stuff that is really basic and should be being analysed is indicated with "!!", and some potential phonology problems are marked too. If problems are found with phonology, related forms should be collected in one place on the phonology TODO list.

apertium-kaz[edit]

due to HFST bug[edit]

At r42896/r43149, the following number of unanalysed tokens were due to the HFST bug:

  • Әуезов: 1954/25653 (7.62%)
  • bible: 8507/70959 (11.99%)
  • quran: 1323/12312 (10.75%)
  • wikipedia2011: 12720/184026 (6.91%)
  • azattyq: 54476/383207 (14.22%)

Әуезов[edit]

  • 65 ^ды/*ды$
  • 58 ^Е/*Е$
  • 34 ^соншалық/*соншалық$
  • 30 ^ты/*ты$
  • 28 ^атаулының/*атаулының$
  • 28 ^ақырғы/*ақырғы$<attr> of ақыр<adv>
  • 27 ^е/*е$
  • 26 ^ді/*ді$
  • 26 ^ғып/*ғып$
  • 25 ^аттылар/*аттылар$ — I think this is a literary <p3><pl> past tense, which we should at least analyse; either that, or it's (tt) атлылар (i.e., those with horses)
  • 23 ^бұ/*бұ$
  • 18 ^Тектіғұл/*Тектіғұл$
  • 18 ^О/*О$
  • 17 ^Ойбай/*Ойбай$<ij>
  • 17 ^о/*о$
  • 17 ^қамданып/*қамданып$
  • 17 ^біртүрлі/*біртүрлі$
  • 17 ^аяңдап/*аяңдап$
  • 16 ^ымырт/*ымырт$
  • 16 ^үйіліп/*үйіліп$
  • 16 ^Тұңғатар/*Тұңғатар$
  • 16 ^сүйкімді/*сүйкімді$
  • 16 ^Сәрсен/*Сәрсен$
  • 16 ^сақ/*сақ$
  • 16 ^қызулы/*қызулы$
  • 16 ^қызарып/*қызарып$
  • 16 ^кемпір/*кемпір$
  • 16 ^кек/*кек$
  • 16 ^қайтіп/*қайтіп$ — қайт<v><iv>/<tv> (takes front vowel endings), verbal form of ~қандай (< *қай ет-)
  • 16 ^зекіп/*зекіп$
  • 16 ^Жұмағұл/*Жұмағұл$
  • 16 ^жарқ/*жарқ$
  • 16 ^жалпақ/*жалпақ$
  • 16 ^атшабар/*атшабар$
  • 15 ^торы/*торы$
  • 15 ^томсарып/*томсарып$
  • 15 ^тілек/*тілек$
  • 15 ^тақап/*тақап$
  • 15 ^сыбаға/*сыбаға$
  • 15 ^сұрланып/*сұрланып$
  • 15 ^сорлы/*сорлы$
  • 15 ^өңшең/*өңшең$
  • 15 ^мінгізіп/*мінгізіп$
  • 15 ^исі/*исі$
  • 15 ^жылдам/*жылдам$
  • 15 ^жағалап/*жағалап$

bible[edit]

  • 93 ^күнәға/*күнәға$ — phonology?
  • 87 ^Еліше/*Еліше$
  • 85 ^қалайша/*қалайша$ — adverbial form of an interogative pronoun "how"/"how so"
  • 78 ^Едом/*Едом$Edom
  • 76 ^о/*о$<ij> ?
  • 75 ^қызметкерлер мен/*қызметкерлер мен$
  • 73 ^сұрақ қойды/*сұрақ қойды$
  • 72 ^перғауынның/*перғауынның$
  • 70 ^перғауын/*перғауын$
  • 70 ^жек көрінішті/*жек көрінішті$
  • 69 ^тағзым/*тағзым$
  • 68 ^қиратып/*қиратып$ — қира<v><iv>(<caus><gna>)
  • 68 ^бас тартып/*бас тартып$
  • 68 ^Бағал/*Бағал$
  • 65 ^парызшылдар/*парызшылдар$
  • 64 ^Жосия/*Жосия$
  • 64 ^арамданған/*арамданған$
  • 62 ^санақтан/*санақтан$ — санақ<n>
  • 62 ^Рубен/*Рубен$
  • 62 ^мүсіндерін/*мүсіндерін$
  • 61 ^мәйіті/*мәйіті$
  • 61 ^жасақшылар/*жасақшылар$ — жасақшы<n> "дружинник"
  • 61 ^Ғилақад/*Ғилақад$
  • 60 ^ризашылық/*ризашылық$<n>
  • 60 ^қастерлеп/*қастерлеп$
  • 59 ^філістір/*філістір$
  • 59 ^Еху/*Еху$
  • 58 ^Тир/*Тир$
  • 58 ^күнге дейін/*күнге дейін$
  • 58 ^арамдығынан/*арамдығынан$
  • 58 ^Абессалом/*Абессалом$
  • 57 ^саф/*саф$
  • 57 ^пайғамбарлық/*пайғамбарлық$
  • 57 ^күнәларының/*күнәларының$ — phonology?
  • 57 ^Евфрат/*Евфрат$<top>
  • 57 ^Аумин/*Аумин$<ij>?
  • 56 ^філістірлердің/*філістірлердің$
  • 56 ^Тақсыр/*Тақсыр$
  • 56 ^ғибадатхананың/*ғибадатхананың$
  • 56 ^астарлы/*астарлы$
  • 55 ^жиренішті/*жиренішті$

quran[edit]

  • 975 ^С/*С$
  • 972 ^Ғ/*Ғ$
  • 177 ^ға/*ға$
  • 83 ^ерекше мейірімді/*ерекше мейірімді$
  • 75 ^нендей/*нендей$ — a pronoun form, but is it standard? literary? ...?
  • 57 ^ның/*ның$
  • 51 ^көктер мен/*көктер мен$
  • 49 ^Көктер мен/*Көктер мен$
  • 44 ^адам баласы/*адам баласы$
  • 36 ^Раббына/*Раббына$
  • 34 ^Алладан басқа/*Алладан басқа$
  • 28 ^Одан басқа/*Одан басқа$
  • 25 ^шүкірлік/*шүкірлік$
  • 25 ^адам баласына/*адам баласына$
  • 23 ^ты/*ты$
  • 20 ^ды/*ды$
  • 20 ^бұрынғылардың/*бұрынғылардың$ — бұрын<adv>+ғы<adj><subst><pl><gen>, or something like that
  • 20 ^бір мерзімге/*бір мерзімге$
  • 18 ^күндізді/*күндізді$
  • 18 ^көмес/*көмес$
  • 18 ^жек/*жек$ — жер көр- ?
  • 16 ^көместі/*көместі$
  • 16 ^бұрынғылар/*бұрынғылар$ — бұрын<adv>+ғы<adj><subst><pl>, or something like that
  • 16 ^аса дана/*аса дана$

What's көмес mean?

azattyq[edit]

  • 1864 ^ның/*ның$
  • 599 ^ға/*ға$
  • 574 ^нің/*нің$
  • 552 ^болып табылады/*болып табылады$
  • 460 ^күнге дейін/*күнге дейін$
  • 348 ^мүмкін деген/*мүмкін деген$
  • 345 ^і/*і$
  • 335 ^мүмкін деп/*мүмкін деп$
  • 313 ^на/*на$
  • 310 ^ды/*ды$
  • 299 ^кем дегенде/*кем дегенде$
  • 289 ^Ресей мен/*Ресей мен$
  • 278 ^Дмитрий Медведев/*Дмитрий Медведев$
  • 270 ^бас тартты/*бас тартты$
  • 247 ^com/*com$
  • 233 ^А/*А$
  • 228 ^жылдан бастап/*жылдан бастап$
  • 220 ^қа/*қа$
  • 213 ^К/*К$
  • 201 ^Осыған байланысты/*Осыған байланысты$
  • 192 ^нен/*нен$
  • 187 ^ы/*ы$
  • 177 ^ді/*ді$
  • 174 ^с/*с$
  • 174 ^айып тағылған/*айып тағылған$
  • 174 ^Eni/*Eni$
  • 173 ^ша/*ша$
  • 168 ^Н/*Н$
  • 166 ^тосқауыл/*тосқауыл$<n> "hindrance, obstacle"
  • 153 ^Жовтистің/*Жовтистің$ — needed %{☭%}
  • 151 ^таражға/*таражға$ — талан-тараж
  • 149 ^журналисі/*журналисі$ — журналист:журналис Dir/LR
  • 148 ^сыңайлы/*сыңайлы$
  • 139 ^зайыбы/*зайыбы$ — зайып<n> "spouse"
  • 139 ^жылдам/*жылдам$<adj>/<adv>?
  • 137 ^разрядты/*разрядты$ — разряд<n>
  • 137 ^атышулы/*атышулы$
  • 136 ^дерлік/*дерлік$<adv> ("almost")
  • 134 ^болып табылатын/*болып табылатын$
  • 134 ^S/*S$
  • 133 ^The/*The$
  • 130 ^қоқан/*қоқан$
  • 130 ^International/*International$
  • 129 ^салысымен/*салысымен$
  • 127 ^слова/*слова$
  • 125 ^емес екенін/*емес екенін$
  • 125 ^еді деп/*еді деп$
  • 123 ^компаниясының бас/*компаниясының бас$
  • 123 ^В/*В$
  • 122 ^келеді деп/*келеді деп$
  • 120 ^құқыққорғау/*құқыққорғау$
  • 119 ^Назарбаев пен/*Назарбаев пен$
  • 118 ^жылдың басында/*жылдың басында$
  • 117 ^Курамшиннің/*Курамшиннің$ — phonotactics for NP-COG-OB
  • 117 ^екен деп/*екен деп$
  • 117 ^білім беру/*білім беру$
  • 117 ^бас тартып/*бас тартып$
  • 114 ^Мәсімовтің/*Мәсімовтің$ — wtf phonology??
  • 114 ^Кейінірек/*Кейінірек$ — кейін<adv> should take comparative
  • 113 ^отставкаға/*отставкаға$ — phonology fixed
  • 112 ^Қ/*Қ$
  • 110 ^Януковичтің/*Януковичтің$ — added, and fixed phonotactics for NP-PAT-VICH
  • 110 ^компаниясының басшысы/*компаниясының басшысы$
  • 110 ^басқармасының бастығы/*басқармасының бастығы$
  • 106 ^кейінірек/*кейінірек$ — кейін<adv> should take comparative
  • 106 ^кейбірі/*кейбірі$ — check morphotactics
  • 106 ^аса маңызды/*аса маңызды$
  • 105 ^ос/*ос$
  • 105 ^болатындығын/*болатындығын$ — do we need {E}т{I}н>{L}{I}{K} gerund?
  • 103 ^дағы/*дағы$
  • 102 ^ты/*ты$
  • 101 ^Республики/*Республики$
  • 101 ^әрқайсысы/*әрқайсысы$ — check morphotactics
  • 101 ^айының басында/*айының басында$
  • 99 ^мәртебесін беру/*мәртебесін беру$
  • 99 ^кейбіреулері/*кейбіреулері$ — check morphotactics
  • 99 ^істер департаментінің/*істер департаментінің$
  • 98 ^сэр/*сэр$
  • 97 ^сүргін/*сүргін$
  • 97 ^айып тағылды/*айып тағылды$
  • 96 ^белорусь/*белорусь$
  • 93 ^С/*С$
  • 93 ^ны/*ны$
  • 93 ^атағын/*атағын$
  • 92 ^кінәлі деп/*кінәлі деп$
  • 92 ^жан басына/*жан басына$
  • 92 ^бұрынғыдан/*бұрынғыдан$ — бұрын takes GI, which takes <subst>, which takes <abl> (check morphotactics)
  • 91 ^өтеді деп/*өтеді деп$
  • 90 ^сілкінісі/*сілкінісі$
  • 90 ^жанкешті/*жанкешті$
  • 90 ^Д/*Д$
  • 90 ^ақырғы/*ақырғы$ — ақыр takes GI
  • 89 ^Дмитрий Медведевтің/*Дмитрий Медведевтің$
  • 89 ^берді деп/*берді деп$
  • 87 ^қырым/*қырым$ — Crimea?
  • 87 ^билік пен/*билік пен$
  • 87 ^айып тағылып/*айып тағылып$
  • 86 ^Р/*Р$
  • 86 ^о/*о$
  • 86 ^әділдік/*әділдік$<n>
  • 86 ^B/*B$
  • 85 ^науқаны/*науқаны$
  • 85 ^қаржы дағдарысы/*қаржы дағдарысы$
  • 85 ^жапон/*жапон$
  • 85 ^бағамы/*бағамы$
  • 84 ^юань/*юань$
  • 84 ^санитарлық/*санитарлық$
  • 84 ^жылдардың басында/*жылдардың басында$
  • 84 ^желеумен/*желеумен$
  • 83 ^экипаж/*экипаж$<n>
  • 83 ^үлгірген/*үлгірген$
  • 83 ^теміржол/*теміржол$<n>
  • 83 ^одақтастары/*одақтастары$
  • 83 ^қолма/*қолма$
  • 83 ^қолайсыз/*қолайсыз$
  • 83 ^жанармай/*жанармай$
  • 83 ^былайша/*былайша$ — = бұлайша
  • 83 ^барша/*барша$
  • 83 ^БАБАМҚОЖА/*БАБАМҚОЖА$
  • 83 ^алаңдатып/*алаңдатып$
  • 83 ^айла/*айла$<n>
  • 82 ^Экономистің/*Экономистің$ — needed to be N5
  • 82 ^шариғат/*шариғат$
  • 82 ^хиджаб/*хиджаб$<n>
  • 82 ^тұсау/*тұсау$
  • 82 ^төтеп/*төтеп$
  • 82 ^Нью-Йорк таймс/*Нью-Йорк таймс$
  • 82 ^нақ/*нақ$
  • 82 ^құқылы/*құқылы$
  • 82 ^етене/*етене$
  • 81 ^цехының/*цехының$
  • 81 ^ушығып/*ушығып$
  • 81 ^тығырыққа/*тығырыққа$
  • 81 ^қытайлықтар/*қытайлықтар$ — check morphotactics
  • 81 ^күзде/*күзде$ — check morphotactics
  • 81 ^кішігірім/*кішігірім$
  • 81 ^ертеңгі/*ертеңгі$ — ертең<adv> takes GI
  • 81 ^әрең/*әрең$<adv> "barely" (??)
  • 81 ^даяр/*даяр$<adj> = дайын

It seems that case endings written separately from some words is a semi-standard convention (it's occurring at least some in all the corpora). We should figure out where this is happening and see if it's something we can deal with.

Wikipedia 2011[edit]

Only the relevant stuff from the top (single letters removed)

  • 665 ^болып табылады/*болып табылады$
  • 300 ^ның/*ның$
  • 278 ^ге/*ге$
  • 158 ^ден/*ден$
  • 157 ^ға/*ға$
  • 106 ^жылдан бастап/*жылдан бастап$
  • 106 ^дың/*дың$
  • 91 ^қа/*қа$
  • 90 ^нің/*нің$
  • 86 ^тығыз байланысты/*тығыз байланысты$
  • 84 ^болып табылатын/*болып табылатын$
  • 82 ^аса маңызды/*аса маңызды$
  • 81 ^га/*га$
  • 72 ^сутек/*сутек$
  • 72 ^қосалқы/*қосалқы$
  • 71 ^құрамдас/*құрамдас$
  • 70 ^шикізат/*шикізат$
  • 70 ^төлем/*төлем$
  • 69 ^ерекшеленеді/*ерекшеленеді$ — ерекшеле<v><tv>(<pass><aor><p3sp>)
  • 68 ^мазмұны/*мазмұны$ — мазмұн<n>
  • 68 ^ажыратылады/*ажыратылады$
  • 67 ^на/*на$
  • 67 ^егіншілік/*егіншілік$
  • 67 ^айырмашылығы/*айырмашылығы$
  • 65 ^үстемдік/*үстемдік$
  • 65 ^ғасырдың басында/*ғасырдың басында$
  • 64 ^тәсілі/*тәсілі$ — тәсіл<n>
  • 64 ^сақ/*сақ$
  • 64 ^мекендеген/*мекендеген$
  • 64 ^көршілес/*көршілес$
  • 64 ^кешені/*кешені$
  • 64 ^ибн/*ибн$
  • 64 ^жырау/*жырау$
  • 63 ^бірыңғай/*бірыңғай$
  • 63 ^білім беру/*білім беру$
  • 63 ^адамгершілік/*адамгершілік$ — адамгершілік<n>
  • 62 ^халықтық/*халықтық$
  • 62 ^өлшемі/*өлшемі$
  • 61 ^біркелкі/*біркелкі$
  • 60 ^дыбыстық/*дыбыстық$
  • 60 ^Бүл/*Бүл$
  • 59 ^сипатталады/*сипатталады$ — сипатта<v><tv>(<pass><aor><p3sp>)
  • 58 ^ортағасырлық/*ортағасырлық$
  • 58 ^күнге дейін/*күнге дейін$
  • 57 ^шешен/*шешен$ — шешен<n>
  • 57 ^өздігінен/*өздігінен$ — өздік<n>

spectie's stuff[edit]

  • 7 ^Бесоба/*Бесоба$
  • 3 ^рақымшылыққа/*рақымшылыққа$
  • 3 ^кешеніндегі/*кешеніндегі$
  • 3 ^Бесобаға/*Бесобаға$
  • 3 ^2012/*2012$
  • 2 ^кешенін/*кешенін$
  • 2 ^Әсел/*Әсел$
  • 2 ^Әбеуп/*Әбеуп$
  • 2 ^Бесобаны/*Бесобаны$
  • 2 ^2009/*2009$
  • 1 ^үйінің белсенді/*үйінің белсенді$
  • 1 ^тазалайды/*тазалайды$
  • 1 ^соманы/*соманы$
  • 1 ^сапалы/*сапалы$
  • 1 ^подъезі/*подъезі$
  • 1 ^парапар/*парапар$
  • 1 ^өкілдіктерін/*өкілдіктерін$
  • 1 ^мердігер/*мердігер$
  • 1 ^мектеп пен/*мектеп пен$
  • 1 ^Майқұдық/*Майқұдық$
  • 1 ^Қытайдағыдай/*Қытайдағыдай$
  • 1 ^қызметтік/*қызметтік$
  • 1 ^құрған бастамашыл/*құрған бастамашыл$
  • 1 ^көпқабатты/*көпқабатты$
  • 1 ^комиссиясының басшылығы/*комиссиясының басшылығы$
  • 1 ^қиратылып/*қиратылып$
  • 1 ^кешеніне/*кешеніне$
  • 1 ^кешендері/*кешендері$
  • 1 ^келеңсіздіктерге/*келеңсіздіктерге$
  • 1 ^Қазыбек/*Қазыбек$
  • 1 ^қадағаламаған/*қадағаламаған$
  • 1 ^жазаласа/*жазаласа$
  • 1 ^еді деп/*еді деп$
  • 1 ^дәлелденді/*дәлелденді$
  • 1 ^дәлелденген/*дәлелденген$
  • 1 ^Гукке/*Гукке$
  • 1 ^Грибенщиковтарға/*Грибенщиковтарға$
  • 1 ^Воробьевке/*Воробьевке$
  • 1 ^бөлмелі/*бөлмелі$
  • 1 ^біржола/*біржола$
  • 1 ^бізге мемлекеттік/*бізге мемлекеттік$
  • 1 ^Бесобада/*Бесобада$
  • 1 ^ауладағы/*ауладағы$
  • 1 ^Аталған бап/*Аталған бап$
  • 1 ^Алтынбеков/*Алтынбеков$
  • 1 ^айып тағылған/*айып тағылған$
  • 1 ^80/*80$
  • 1 ^40/*40$
  • 1 ^307/*307$
  • 1 ^20/*20$

stats:

  • total words: 621
  • analysed: 552
  • not analysed: 69
    • misc: 29
    • proper nouns: 23
    • numerals: 9
    • tokenisation errors: 8

apertium-tat[edit]

aytmatov[edit]

  • 50 ^Дүшән/*Дүшән$<cog><m>
  • 17 ^Алтынай/*Алтынай$<cog><f>
  • 14 ^мөгаллим/*мөгаллим$<n>
  • 6 ^Сатымкол/*Сатымкол$
  • 6 ^кигән/*кигән$ — phonology?
  • 5 ^мулла/*мулла$
  • 5 ^кинәт/*кинәт$
  • 5 ^Йә/*Йә$
  • 5 ^Дүшәннең/*Дүшәннең$<cog><m>
  • 4 ^Ниһаять/*Ниһаять$
  • 4 ^институтта/*институтта$
  • 4 ^берсе/*берсе$
  • 3 ^явыз/*явыз$
  • 3 ^ничектер/*ничектер$
  • 3 ^кичеп/*кичеп$
  • 3 ^йөри/*йөри$ — phonology??
  • 3 ^Дүшәннән/*Дүшәннән$<cog><m>
  • 3 ^Дүшәнне/*Дүшәнне$<cog><m>
  • 3 ^дөньяда/*дөньяда$ — phonology?
  • 3 ^бервакытта/*бервакытта$
  • 2 ^яме/*яме$
  • 2 ^юньләп/*юньләп$
  • 2 ^шинеленә/*шинеленә$
  • 2 ^чыдамлык/*чыдамлык$

new testament[edit]

  • 403 ^Мәсих/*Мәсих$
  • 264 ^Аллаһыга/*Аллаһыга$
  • 190 ^Паул/*Паул$
  • 159 ^Петер/*Петер$
  • 113 ^Яхъя/*Яхъя$
  • 108 ^берсе/*берсе$
  • 97 ^Аллаһыдан/*Аллаһыдан$
  • 90 ^шаһитлек/*шаһитлек$
  • 89 ^Мәсихнең/*Мәсихнең$
  • 88 ^Муса/*Муса$
  • 73 ^ллә/*ллә$
  • 69 ^руханилар/*руханилар$
  • 66 ^ы/*ы$
  • 66 ^Шимун/*Шимун$
  • 60 ^Пилат/*Пилат$
  • 57 ^хакына/*хакына$
  • 57 ^каршында/*каршында$
  • 56 ^Мәсихкә/*Мәсихкә$
  • 55 ^гыйбрәтле/*гыйбрәтле$
  • 52 ^явыз/*явыз$
  • 52 ^фарисейләр/*фарисейләр$
  • 49 ^Һируд/*Һируд$
  • 49 ^һәммәсе/*һәммәсе$
  • 49 ^хачка/*хачка$
  • 48 ^Давыт/*Давыт$
  • 47 ^канунчылар/*канунчылар$
  • 43 ^Паулны/*Паулны$
  • 43 ^дучар/*дучар$
  • 42 ^берсен/*берсен$
  • 39 ^иминлек/*иминлек$
  • 39 ^игелекле/*игелекле$
  • 39 ^ә/ә<cnjcoo>/ә<ij>$^ллә/*ллә$
  • 39 ^Аллаһысы/*Аллаһысы$
  • 36 ^Имандашлар/*Имандашлар$
  • 35 ^Паулның/*Паулның$
  • 34 ^барысын/*барысын$
  • 33 ^язылганча/*язылганча$
  • 33 ^һәммә/*һәммә$
  • 33 ^савыктыра/*савыктыра$
  • 33 ^Мәсихне/*Мәсихне$
  • 33 ^Барнаб/*Барнаб$
  • 32 ^икърар/*икърар$
  • 31 ^шакшы/*шакшы$
  • 31 ^рәсүлләр/*рәсүлләр$
  • 31 ^дөньяда/*дөньяда$

quran[edit]

  • 930 ^Аллаһуга/*Аллаһуга$
  • 880 ^Ий/*Ий$
  • 633 ^Аллаһудан/*Аллаһудан$
  • 506 ^Аллаһуның/*Аллаһуның$
  • 484 ^г/*г$
  • 462 ^ґәзаб/*ґәзаб$
  • 357 ^Мухәммәд/*Мухәммәд$
  • 346 ^Тәхкыйк/*Тәхкыйк$
  • 300 ^кеби/*кеби$
  • 274 ^Аллаһу/*Аллаһу$
  • 270 ^итагать/*итагать$
  • 245 ^Муса/*Муса$
  • 217 ^дөньяда/*дөньяда$ — phonology?
  • 209 ^Әйә/*Әйә$
  • 189 ^инкяр/*инкяр$
  • 183 ^тәхкыйк/*тәхкыйк$
  • 176 ^соңра/*соңра$
  • 163 ^Дәхи/*Дәхи$
  • 143 ^барча/*барча$
  • 142 ^тәгалә/*тәгалә$
  • 140 ^ґәзабы/*ґәзабы$
  • 132 ^нә/*нә$
  • 130 ^мөшрикләр/*мөшрикләр$
  • 129 ^хәрам/*хәрам$

In the quran corpus there seem to be some non-standard orthographical conventions, like the use of ‹ґ› for /гъ/ before front vowels.

news[edit]

  • 2743 ^берсе/*берсе$
  • 2342 ^нче/*нче$
  • 1606 ^биредә/*биредә$
  • 1443 ^Чаллы/*Чаллы$
  • 1311 ^уку/*уку$
  • 1310 ^булганча/*булганча$
  • 1245 ^ның/*ның$
  • 1225 ^Биредә/*Биредә$
  • 1111 ^сәбәпле/*сәбәпле$
  • 1063 ^хәбәр иткәнчә/*хәбәр иткәнчә$
  • 1047 ^Г/*Г$
  • 1024 ^Тукай/*Тукай$
  • 982 ^А/*А$
  • 959 ^Дмитрий/*Дмитрий$
  • 952 ^Татнефть/*Татнефть$
  • 951 ^фестивале/*фестивале$ - phonology
  • 924 ^КАМАЗ/*КАМАЗ$
  • 918 ^хакы/*хакы$
  • 893 ^Р/*Р$
  • 884 ^Метшин/*Метшин$
  • 881 ^җәмгыяте/*җәмгыяте$
  • 847 ^каршындагы/*каршындагы$
  • 844 ^Ульяновски/*Ульяновски$
  • 838 ^Ауропа/*Ауропа$
  • 835 ^комплексы/*комплексы$
  • 833 ^Илдар/*Илдар$
  • 828 ^Илсур/*Илсур$
  • 827 ^югары уку/*югары уку$
  • 807 ^ниятли/*ниятли$
  • 797 ^Римма/*Римма$
  • 782 ^институты/*институты$
  • 770 ^Әлмәт/*Әлмәт$
  • 768 ^кагылышлы/*кагылышлы$
  • 768 ^журналистлар/*журналистлар$
  • 757 ^информ/*информ$
  • 753 ^белдергәнчә/*белдергәнчә$
  • 747 ^эшлекле/*эшлекле$
  • 740 ^В/*В$
  • 736 ^үткәнчә/*үткәнчә$
  • 733 ^сумлык/*сумлык$
  • 723 ^Фәнис/*Фәнис$
  • 719 ^мэры/*мэры$
  • 717 ^нә/*нә$
  • 700 ^каршында/*каршында$
  • 698 ^бәясе/*бәясе$

Wikipedia[edit]

  • 302 ^туа/*туа$ — phonology?
  • 128 ^әдәбияты/*әдәбияты$ — phonology?
  • 124 ^дөньяга/*дөньяга$ — phonology?
  • 115 ^Г/*Г$
  • 89 ^нче/*нче$
  • 88 ^декабрендә/*декабрендә$
  • 83 ^июлендә/*июлендә$
  • 80 ^октябрендә/*октябрендә$
  • 80 ^ноябрендә/*ноябрендә$
  • 77 ^берсе/*берсе$
  • 75 ^А/*А$
  • 74 ^июнендә/*июнендә$
  • 69 ^сентябрендә/*сентябрендә$
  • 67 ^Тукай/*Тукай$
  • 65 ^февралендә/*февралендә$
  • 60 ^В/*В$
  • 58 ^эшкәрткеч/*эшкәрткеч$
  • 55 ^Н/*Н$
  • 55 ^апрелендә/*апрелендә$
  • 54 ^өязе/*өязе$
  • 51 ^Габдулла/*Габдулла$
  • 50 ^б./*б.$
  • 47 ^укыта/*укыта$
  • 47 ^сәбәпле/*сәбәпле$
  • 45 ^шигъри/*шигъри$
  • 42 ^Ф/*Ф$
  • 41 ^һ./*һ.$
  • 41 ^туып/*туып$
  • 41 ^С/*С$
  • 41 ^Муса/*Муса$
  • 37 ^училищесында/*училищесында$
  • 37 ^Сембер/*Сембер$
  • 37 ^каршындагы/*каршындагы$
  • 36 ^педагогия/*педагогия$
  • 36 ^Кайбыч/*Кайбыч$
  • 36 ^Арча/*Арча$
  • 35 ^Р/*Р$
  • 35 ^Олимпия/*Олимпия$
  • 34 ^мулла/*мулла$
  • 34 ^йөри/*йөри$
  • 34 ^Әлмәт/*Әлмәт$