Kazakh and Tatar/Remaining unanalysed forms

From Apertium
Jump to navigation Jump to search

This is a list of top remaining unanalysed forms in the apertium-kaz and apertium-tat transducers. Taking care of issues in these will improve transducer coverage.

Forms highlighted in yellow are forms that should be pretty easy to deal with, or require very little research to add to the transducer. Forms that are struck through are results of the HFST tokenisation bug and should be ignored for now. Some stuff that is really basic and should be being analysed is indicated with "!!", and some potential phonology problems are marked too. If problems are found with phonology, related forms should be collected in one place on the phonology TODO list.

apertium-kaz

Әуезов

  • 70 ^ғой/*ғой$
  • 65 ^ды/*ды$
  • 58 ^жиып/*жиып$
  • 58 ^Е/*Е$
  • 57 ^Ақжелке/*Ақжелке$
  • 47 ^жиын/*жиын$
  • 43 ^ертіп/*ертіп$
  • 35 ^жиылып/*жиылып$
  • 34 ^соншалық/*соншалық$ — pronoun form
  • 30 ^ты/*ты$
  • 28 ^атаулының/*атаулының$
  • 28 ^ақырғы/*ақырғы$<attr> of ақыр<adv>
  • 27 ^е/*е$
  • 26 ^ді/*ді$
  • 26 ^ғып/*ғып$
  • 25 ^аттылар/*аттылар$ — I think this is a literary <p3><pl> past tense, which we should at least analyse
  • 23 ^бұ/*бұ$
  • 21 ^жиылған/*жиылған$
  • 20 ^кей/*кей$
  • 18 ^Тектіғұл/*Тектіғұл$
  • 18 ^О/*О$
  • 17 ^Ойбай/*Ойбай$<ij>
  • 17 ^о/*о$
  • 17 ^қамданып/*қамданып$

Is there a verb жиы- ??

bible

  • 897 ^Исраилдің/*Исраилдің$ — Исраил<cog><m> = Israel
  • 319 ^іспетті/*іспетті$
  • 242 ^Таурат/*Таурат$
  • 237 ^Иерусалимге/*Иерусалимге$ — Иерусалим<top>
  • 198 ^гөр/*гөр$
  • 177 ^Иерусалимнің/*Иерусалимнің$ — Иерусалим<top>
  • 172 ^жек/*жек$ — жек көр- ?
  • 163 ^Иерусалимде/*Иерусалимде$ — Иерусалим<top>
  • 160 ^әркім/*әркім$ — a pronoun "anyone"
  • 156 ^ертіп/*ертіп$
  • 150 ^Ей/*Ей$<ij> ?
  • 136 ^Исраилге/*Исраилге$ — Исраил<cog><m> = Israel
  • 111 ^Манаса/*Манаса$
  • 105 ^леуіліктер/*леуіліктер$ Леуі is the name of a tribe ("Levi", after a patriarch?); леуіліктер is the Levites
  • 96 ^Исраилді/*Исраилді$ — Исраил<cog><m> = Israel
  • 93 ^күнәға/*күнәға$ — this is weird
  • 89 ^шүкірлік/*шүкірлік$
  • 87 ^Еліше/*Еліше$
  • 85 ^қалайша/*қалайша$ — adverbial form of an interogative pronoun "how"/"how so"
  • 82 ^Иерусалимдегі/*Иерусалимдегі$ — Иерусалим<top>
  • 78 ^Едом/*Едом$Edom
  • 77 ^жұрттық/*жұрттық$<attr> of жұрт
  • 76 ^о/*о$
  • 75 ^қызметкерлер мен/*қызметкерлер мен$

Are Исраил and Иерусалим not being analysed because of a vowel-harmony-with-и problem? If so, it should be added to the list of phonology problems—there are a couple ways this can be dealt with, and JNW will figure out which is better.


quran

  • 975 ^С/*С$
  • 972 ^Ғ/*Ғ$
  • 177 ^ға/*ға$
  • 83 ^ерекше мейірімді/*ерекше мейірімді$
  • 75 ^нендей/*нендей$ — a pronoun form, but is it standard? literary? ...?
  • 57 ^ның/*ның$
  • 51 ^көктер мен/*көктер мен$
  • 49 ^Көктер мен/*Көктер мен$
  • 44 ^адам баласы/*адам баласы$
  • 36 ^Раббына/*Раббына$
  • 34 ^Алладан басқа/*Алладан басқа$
  • 28 ^Одан басқа/*Одан басқа$
  • 25 ^шүкірлік/*шүкірлік$
  • 25 ^адам баласына/*адам баласына$
  • 23 ^ты/*ты$
  • 20 ^ды/*ды$
  • 20 ^бұрынғылардың/*бұрынғылардың$ — бұрын<adv>+ғы<adj><subst><pl><gen>, or something like that
  • 20 ^бір мерзімге/*бір мерзімге$
  • 18 ^күндізді/*күндізді$
  • 18 ^көмес/*көмес$
  • 18 ^жек/*жек$ — жер көр- ?
  • 16 ^көместі/*көместі$
  • 16 ^бұрынғылар/*бұрынғылар$ — бұрын<adv>+ғы<adj><subst><pl>, or something like that
  • 16 ^аса дана/*аса дана$

What's көмес mean?

azattyq

  • 1864 ^ның/*ның$
  • 1457 ^тың/*тың$
  • 584 ^ға/*ға$
  • 582 ^Барлау/*Барлау$барла<v><tv>, барлау<n>
  • 574 ^нің/*нің$
  • 572 ^барлау/*барлау$барла<v><tv>, барлау<n>
  • 552 ^болып табылады/*болып табылады$
  • 510 ^түсіндіреді/*түсіндіреді$ — түсін<v><iv><caus><aor><p3><sp>
  • 510 ^құқын/*құқын$
  • 460 ^күнге дейін/*күнге дейін$
  • 438 ^сөзінше/*сөзінше$ — hrmm, we probably need to deal with this morphology somehow? But how?
  • 426 ^пайыздық/*пайыздық$ — hrmm, we probably need to deal with this morphology somehow? But how?
  • 420 ^вице/*вице$ part of вице министр or вице президент or the like?
  • 415 ^жарақат/*жарақат$
  • 414 ^ауған/*ауған$ — "Afghan" as a nationality, with same endings as other nationalities (there's a lexicon for this, right?)
  • 391 ^KazakhGold/*KazakhGold$ — put this in as a company, I guess...
  • 390 ^әділ/*әділ$<adj> "just, righteous"
  • 389 ^қаншалықты/*қаншалықты$<acc> of қаншалық ← қанша<adv>
  • 380 ^тиімді/*тиімді$
  • 375 ^құжат/*құжат$құжат<n>
  • 375 ^әлдеқайда/*әлдеқайда$ — "somewhere"
  • 371 ^ықтимал/*ықтимал$
  • 368 ^тағылған/*тағылған$ — тақ<v><tv><pass> + various GAн forms
  • 365 ^тиек/*тиек$

It seems that case endings written separately from some words is a semi-standard convention (it's occurring at least some in all the corpora). We should figure out where this is happening and see if it's something we can deal with.

Wikipedia 2011

Only the relevant stuff from the top (most stuff is single letters)

  • 665 ^болып табылады/*болып табылады$
  • 300 ^ның/*ның$
  • 278 ^ге/*ге$
  • 164 ^ДНҚ/*ДНҚ$
  • 159 ^ден/*ден$
  • 157 ^ға/*ға$
  • 153 ^ақшалай/*ақшалай$
  • 126 ^мамандығы/*мамандығы$ — мамандық = "field of specialisation / специальность"
  • 114 ^талдау/*талдау$
  • 109 ^нақтылы/*нақтылы$
  • 109 ^барлау/*барлау$
  • 106 ^жылдан бастап/*жылдан бастап$
  • 106 ^дың/*дың$
  • 99 ^сақтандыру/*сақтандыру$
  • 95 ^жеткілікті/*жеткілікті$
  • 92 ^нарықтық/*нарықтық$

apertium-tat

aytmatov

  • 50 ^Дүшән/*Дүшән$<cog><m>
  • 17 ^Алтынай/*Алтынай$<cog><f>
  • 14 ^мөгаллим/*мөгаллим$<n>
  • 6 ^Сатымкол/*Сатымкол$
  • 6 ^кигән/*кигән$ — phonology?
  • 5 ^мулла/*мулла$
  • 5 ^кинәт/*кинәт$
  • 5 ^Йә/*Йә$
  • 5 ^Дүшәннең/*Дүшәннең$<cog><m>
  • 4 ^Ниһаять/*Ниһаять$
  • 4 ^институтта/*институтта$
  • 4 ^берсе/*берсе$
  • 3 ^явыз/*явыз$
  • 3 ^ничектер/*ничектер$
  • 3 ^кичеп/*кичеп$
  • 3 ^йөри/*йөри$ — phonology??
  • 3 ^Дүшәннән/*Дүшәннән$<cog><m>
  • 3 ^Дүшәнне/*Дүшәнне$<cog><m>
  • 3 ^дөньяда/*дөньяда$ — phonology?
  • 3 ^бервакытта/*бервакытта$
  • 2 ^яме/*яме$
  • 2 ^юньләп/*юньләп$
  • 2 ^шинеленә/*шинеленә$
  • 2 ^чыдамлык/*чыдамлык$

new testament

  • 1279 ^ѳчен/*ѳчен$
  • 420 ^чѳнки/*чѳнки$
  • 403 ^Мәсих/*Мәсих$
  • 390 ^Чѳнки/*Чѳнки$
  • 264 ^Аллаһыга/*Аллаһыга$
  • 225 ^бѳтен/*бѳтен$
  • 191 ^хѳкем/*хѳкем$
  • 190 ^Паул/*Паул$<cog><m>
  • 159 ^Петер/*Петер$<cog><m>
  • 118 ^кѳн/*кѳн$ — !!
  • 113 ^Яхъя/*Яхъя$<cog><m>
  • 111 ^кѳнне/*кѳнне$ — !!
  • 108 ^берсе/*берсе$
  • 102 ^гѳнаһ/*гѳнаһ$
  • 97 ^Аллаһыдан/*Аллаһыдан$
  • 90 ^шаһитлек/*шаһитлек$
  • 89 ^Мәсихнең/*Мәсихнең$
  • 88 ^Муса/*Муса$<cog><m>
  • 84 ^ѳч/*ѳч$ — !!
  • 77 ^кѳчле/*кѳчле$
  • 73 ^ллә/*ллә$
  • 73 ^Иерусалимга/*Иерусалимга$ — phonology?
  • 73 ^бѳек/*бѳек$
  • 71 ^ѳстенә/*ѳстенә$ — !!

quran

  • 930 ^Аллаһуга/*Аллаһуга$
  • 880 ^Ий/*Ий$
  • 633 ^Аллаһудан/*Аллаһудан$
  • 506 ^Аллаһуның/*Аллаһуның$
  • 484 ^г/*г$
  • 462 ^ґәзаб/*ґәзаб$
  • 357 ^Мухәммәд/*Мухәммәд$
  • 346 ^Тәхкыйк/*Тәхкыйк$
  • 300 ^кеби/*кеби$
  • 274 ^Аллаһу/*Аллаһу$
  • 270 ^итагать/*итагать$
  • 245 ^Муса/*Муса$
  • 217 ^дөньяда/*дөньяда$ — phonology?
  • 209 ^Әйә/*Әйә$
  • 189 ^инкяр/*инкяр$
  • 183 ^тәхкыйк/*тәхкыйк$
  • 176 ^соңра/*соңра$
  • 163 ^Дәхи/*Дәхи$
  • 143 ^барча/*барча$
  • 142 ^тәгалә/*тәгалә$
  • 140 ^ґәзабы/*ґәзабы$
  • 132 ^нә/*нә$
  • 130 ^мөшрикләр/*мөшрикләр$
  • 129 ^хәрам/*хәрам$

In the quran corpus there seem to be some non-standard orthographical conventions, like the use of ‹ґ› for /гъ/ before front vowels.

news

  • 2743 ^берсе/*берсе$
  • 2342 ^нче/*нче$
  • 1889 ^аенда/*аенда$ — phonology?
  • 1732 ^уңаеннан/*уңаеннан$ — phonology?
  • 1606 ^биредә/*биредә$
  • 1443 ^Чаллы/*Чаллы$
  • 1326 ^уку/*уку$
  • 1310 ^булганча/*булганча$
  • 1269 ^проекты/*проекты$ — phonology?
  • 1245 ^ның/*ның$
  • 1225 ^Биредә/*Биредә$
  • 1111 ^сәбәпле/*сәбәпле$
  • 1091 ^университеты/*университеты$ — phonology?
  • 1063 ^хәбәр иткәнчә/*хәбәр иткәнчә$
  • 1047 ^Г/*Г$
  • 1024 ^Тукай/*Тукай$
  • 982 ^А/*А$
  • 980 ^студентлар/*студентлар$ — phonology?
  • 959 ^Дмитрий/*Дмитрий$
  • 952 ^Татнефть/*Татнефть$
  • 951 ^фестивале/*фестивале$ — phonology?
  • 924 ^КАМАЗ/*КАМАЗ$
  • 918 ^хакы/*хакы$
  • 893 ^Р/*Р$