Difference between revisions of "Kazakh and Tatar/Remaining unanalysed forms"

From Apertium
Jump to navigation Jump to search
Line 29: Line 29:
 
* 26 ^ді/*ді$
 
* 26 ^ді/*ді$
 
* 26 ^ғып/*ғып$
 
* 26 ^ғып/*ғып$
* {{highlight|25 ^аттылар/*аттылар$}} — I think this is a literary {{tag|p3}}{{tag|pl}} past tense, which we should at least analyse; either that, or it's <tt>(tt)</tt> атлылар (i.e., those with horses)
+
* {{highlight|25 ^аттылар/*аттылар$}} — I think this <s>is a literary {{tag|p3}}{{tag|pl}} past tense, which we should at least analyse; either that, or it's</s> <tt>(tt)</tt> атлылар (i.e., those with horses)
 
* 23 ^бұ/*бұ$
 
* 23 ^бұ/*бұ$
 
* 21 ^жиылған/*жиылған$
 
* 21 ^жиылған/*жиылған$

Revision as of 21:53, 28 February 2013

This is a list of top remaining unanalysed forms in the apertium-kaz and apertium-tat transducers. Taking care of issues in these will improve transducer coverage.

Forms highlighted in yellow are forms that should be pretty easy to deal with, or require very little research to add to the transducer. Forms that are highlighted in red are results of the HFST tokenisation bug and should be ignored for now. Forms that are struck through have either been fixed or delegated to the TWOL department. Some stuff that is really basic and should be being analysed is indicated with "!!", and some potential phonology problems are marked too. If problems are found with phonology, related forms should be collected in one place on the phonology TODO list.

apertium-kaz

due to HFST bug

At r42896, the following number of unanalysed tokens were due to the HFST bug:

  • Әуезов: 1954/25653 (7.62%)
  • bible: 8507/70959 (11.99%)
  • quran: 1323/12312 (10.75%)
  • wikipedia2011: 12465/197238 (6.32%)
  • azattyq: 52749/463178 (11.39%)

Әуезов

  • 70 ^ғой/*ғой$
  • 65 ^ды/*ды$
  • 58 ^жиып/*жиып$
  • 58 ^Е/*Е$
  • 57 ^Ақжелке/*Ақжелке$
  • 47 ^жиын/*жиын$
  • 43 ^ертіп/*ертіп$
  • 35 ^жиылып/*жиылып$
  • 34 ^соншалық/*соншалық$ — pronoun form
  • 30 ^ты/*ты$
  • 28 ^атаулының/*атаулының$
  • 28 ^ақырғы/*ақырғы$<attr> of ақыр<adv>
  • 27 ^е/*е$
  • 26 ^ді/*ді$
  • 26 ^ғып/*ғып$
  • 25 ^аттылар/*аттылар$ — I think this is a literary <p3><pl> past tense, which we should at least analyse; either that, or it's (tt) атлылар (i.e., those with horses)
  • 23 ^бұ/*бұ$
  • 21 ^жиылған/*жиылған$
  • 20 ^кей/*кей$
  • 18 ^Тектіғұл/*Тектіғұл$
  • 18 ^О/*О$
  • 17 ^Ойбай/*Ойбай$<ij>
  • 17 ^о/*о$
  • 17 ^қамданып/*қамданып$

Is there a verb жиы- ??

bible

  • 93 ^күнәға/*күнәға$ — phonology?
  • 87 ^Еліше/*Еліше$
  • 85 ^қалайша/*қалайша$ — adverbial form of an interogative pronoun "how"/"how so"
  • 78 ^Едом/*Едом$Edom
  • 76 ^о/*о$<ij> ?
  • 75 ^қызметкерлер мен/*қызметкерлер мен$
  • 73 ^сұрақ қойды/*сұрақ қойды$
  • 72 ^перғауынның/*перғауынның$
  • 70 ^перғауын/*перғауын$
  • 70 ^жек көрінішті/*жек көрінішті$
  • 69 ^тағзым/*тағзым$
  • 68 ^қиратып/*қиратып$ — қира<v><iv><caus>(<gna>)
  • 68 ^бас тартып/*бас тартып$
  • 68 ^Бағал/*Бағал$
  • 65 ^парызшылдар/*парызшылдар$
  • 64 ^Жосия/*Жосия$
  • 64 ^арамданған/*арамданған$
  • 62 ^санақтан/*санақтан$ — санақ<n>
  • 62 ^Рубен/*Рубен$
  • 62 ^мүсіндерін/*мүсіндерін$
  • 61 ^мәйіті/*мәйіті$
  • 61 ^жасақшылар/*жасақшылар$ — жасақшы<n> "дружинник"
  • 61 ^Ғилақад/*Ғилақад$
  • 60 ^ризашылық/*ризашылық$<n>
  • 60 ^қастерлеп/*қастерлеп$
  • 59 ^філістір/*філістір$
  • 59 ^Еху/*Еху$
  • 58 ^Тир/*Тир$
  • 58 ^күнге дейін/*күнге дейін$
  • 58 ^арамдығынан/*арамдығынан$
  • 58 ^Абессалом/*Абессалом$
  • 57 ^саф/*саф$
  • 57 ^пайғамбарлық/*пайғамбарлық$
  • 57 ^күнәларының/*күнәларының$ — phonology?
  • 57 ^Евфрат/*Евфрат$<top>
  • 57 ^Аумин/*Аумин$<ij>?
  • 56 ^філістірлердің/*філістірлердің$
  • 56 ^Тақсыр/*Тақсыр$
  • 56 ^ғибадатхананың/*ғибадатхананың$
  • 56 ^астарлы/*астарлы$
  • 55 ^жиренішті/*жиренішті$

quran

  • 975 ^С/*С$
  • 972 ^Ғ/*Ғ$
  • 177 ^ға/*ға$
  • 83 ^ерекше мейірімді/*ерекше мейірімді$
  • 75 ^нендей/*нендей$ — a pronoun form, but is it standard? literary? ...?
  • 57 ^ның/*ның$
  • 51 ^көктер мен/*көктер мен$
  • 49 ^Көктер мен/*Көктер мен$
  • 44 ^адам баласы/*адам баласы$
  • 36 ^Раббына/*Раббына$
  • 34 ^Алладан басқа/*Алладан басқа$
  • 28 ^Одан басқа/*Одан басқа$
  • 25 ^шүкірлік/*шүкірлік$
  • 25 ^адам баласына/*адам баласына$
  • 23 ^ты/*ты$
  • 20 ^ды/*ды$
  • 20 ^бұрынғылардың/*бұрынғылардың$ — бұрын<adv>+ғы<adj><subst><pl><gen>, or something like that
  • 20 ^бір мерзімге/*бір мерзімге$
  • 18 ^күндізді/*күндізді$
  • 18 ^көмес/*көмес$
  • 18 ^жек/*жек$ — жер көр- ?
  • 16 ^көместі/*көместі$
  • 16 ^бұрынғылар/*бұрынғылар$ — бұрын<adv>+ғы<adj><subst><pl>, or something like that
  • 16 ^аса дана/*аса дана$

What's көмес mean?

azattyq

  • 1864 ^ның/*ның$
  • 584 ^ға/*ға$
  • 574 ^нің/*нің$
  • 552 ^болып табылады/*болып табылады$
  • 510 ^құқын/*құқын$ — phonology!!
  • 460 ^күнге дейін/*күнге дейін$
  • 364 ^қарулы/*қарулы$қарулы<adj>
  • 348 ^мүмкін деген/*мүмкін деген$
  • 344 ^і/*і$
  • 335 ^мүмкін деп/*мүмкін деп$
  • 313 ^на/*на$
  • 310 ^ды/*ды$
  • 299 ^кем дегенде/*кем дегенде$
  • 294 ^қаупі/*қаупі$ — maybe just қауып:қау%{y%}п? but check for қауыпы, we might need RL see the twol list
  • 289 ^Ресей мен/*Ресей мен$
  • 284 ^құқы/*құқы$ see the twol list
  • 278 ^Дмитрий Медведев/*Дмитрий Медведев$
  • 277 ^бас тартты/*бас тартты$
  • 267 ^ешнәрсе/*ешнәрсе$
  • 247 ^com/*com$
  • 236 ^біреулер/*біреулер$
  • 233 ^А/*А$
  • 228 ^жылдан бастап/*жылдан бастап$
  • 224 ^жиыны/*жиыны$ — жиын<n> ("assembly; set (math)")
  • 221 ^бастысы/*бастысы$ — басты<adj> (derived class? no comparative, I think)
  • 220 ^қа/*қа$
  • 215 ^жою/*жою$ — жой<v><tv> see the twol list
  • 213 ^К/*К$
  • 201 ^Осыған байланысты/*Осыған байланысты$
  • 200 ^жатқандығын/*жатқандығын$
  • 196 ^себепкер/*себепкер$
  • 195 ^теріске/*теріске$
  • 195 ^рульді/*рульді$ — could be phonology, or could be absence in lexc
  • 193 ^мәслихатында/*мәслихатында$
  • 193 ^игеру/*игеру$
  • 192 ^нен/*нен$
  • 191 ^постсоветтік/*постсоветтік$
  • 191 ^орнату/*орнату$ — орна<v><iv><caus>
  • 191 ^кенішін/*кенішін$
  • 190 ^жазуынша/*жазуынша$
  • 189 ^ұлтаралық/*ұлтаралық$<adj> ("international")

It seems that case endings written separately from some words is a semi-standard convention (it's occurring at least some in all the corpora). We should figure out where this is happening and see if it's something we can deal with.

Wikipedia 2011

Only the relevant stuff from the top (single letters removed)

  • 665 ^болып табылады/*болып табылады$
  • 300 ^ның/*ның$
  • 278 ^ге/*ге$
  • 159 ^ден/*ден$
  • 157 ^ға/*ға$
  • 106 ^жылдан бастап/*жылдан бастап$
  • 106 ^дың/*дың$
  • 92 ^жою/*жою$ — жой<v><tv>
  • 91 ^қа/*қа$
  • 90 ^тамаша/*тамаша$<adj> ("wonderful")
  • 90 ^нің/*нің$
  • 90 ^құрылымдық/*құрылымдық$
  • 87 ^ы/*ы$
  • 87 ^тұтыну/*тұтыну$
  • 87 ^көміртек/*көміртек$
  • 87 ^біртұтас/*біртұтас$
  • 86 ^тығыз байланысты/*тығыз байланысты$
  • 86 ^орасан/*орасан$
  • 86 ^көзқарасы/*көзқарасы$
  • 86 ^дәрежеде/*дәрежеде$ — дәреже<n> ("degree")
  • 84 ^болып табылатын/*болып табылатын$
  • 84 ^бейнеленген/*бейнеленген$
  • 83 ^тепе/*тепе$ (тепе-тең, тепе-теңдік, теңдік
  • 82 ^жүйке/*жүйке$
  • 82 ^жөне/*жөне$
  • 82 ^бюджеттік/*бюджеттік$
  • 82 ^аса маңызды/*аса маңызды$
  • 81 ^тұрмыстық/*тұрмыстық$
  • 81 ^га/*га$
  • 80 ^дәрежесі/*дәрежесі$ — see above
  • 79 ^қант/*қант$<n> ("sugar")
  • 79 ^қалыңдығы/*қалыңдығы$
  • 78 ^қарқынды/*қарқынды$
  • 77 ^шөгінді/*шөгінді$
  • 77 ^отырықшы/*отырықшы$
  • 77 ^қаржыландыру/*қаржыландыру$ қаржыла<v><iv><pass><caus> ("liquidate"?)
  • 75 ^аумақтық/*аумақтық$
  • 73 ^Кенесары/*Кенесары$
  • 73 ^жабайы/*жабайы$<adj> ("wild")
  • 72 ^толқын/*толқын$<n> ("wave")

spectie's stuff

  • 7 ^Бесоба/*Бесоба$
  • 3 ^рақымшылыққа/*рақымшылыққа$
  • 3 ^кешеніндегі/*кешеніндегі$
  • 3 ^Бесобаға/*Бесобаға$
  • 3 ^2012/*2012$
  • 2 ^кешенін/*кешенін$
  • 2 ^Әсел/*Әсел$
  • 2 ^Әбеуп/*Әбеуп$
  • 2 ^Бесобаны/*Бесобаны$
  • 2 ^2009/*2009$
  • 1 ^үйінің белсенді/*үйінің белсенді$
  • 1 ^тазалайды/*тазалайды$
  • 1 ^соманы/*соманы$
  • 1 ^сапалы/*сапалы$
  • 1 ^подъезі/*подъезі$
  • 1 ^парапар/*парапар$
  • 1 ^өкілдіктерін/*өкілдіктерін$
  • 1 ^мердігер/*мердігер$
  • 1 ^мектеп пен/*мектеп пен$
  • 1 ^Майқұдық/*Майқұдық$
  • 1 ^Қытайдағыдай/*Қытайдағыдай$
  • 1 ^қызметтік/*қызметтік$
  • 1 ^құрған бастамашыл/*құрған бастамашыл$
  • 1 ^көпқабатты/*көпқабатты$
  • 1 ^комиссиясының басшылығы/*комиссиясының басшылығы$
  • 1 ^қиратылып/*қиратылып$
  • 1 ^кешеніне/*кешеніне$
  • 1 ^кешендері/*кешендері$
  • 1 ^келеңсіздіктерге/*келеңсіздіктерге$
  • 1 ^Қазыбек/*Қазыбек$
  • 1 ^қадағаламаған/*қадағаламаған$
  • 1 ^жазаласа/*жазаласа$
  • 1 ^еді деп/*еді деп$
  • 1 ^дәлелденді/*дәлелденді$
  • 1 ^дәлелденген/*дәлелденген$
  • 1 ^Гукке/*Гукке$
  • 1 ^Грибенщиковтарға/*Грибенщиковтарға$
  • 1 ^Воробьевке/*Воробьевке$
  • 1 ^бөлмелі/*бөлмелі$
  • 1 ^біржола/*біржола$
  • 1 ^бізге мемлекеттік/*бізге мемлекеттік$
  • 1 ^Бесобада/*Бесобада$
  • 1 ^ауладағы/*ауладағы$
  • 1 ^Аталған бап/*Аталған бап$
  • 1 ^Алтынбеков/*Алтынбеков$
  • 1 ^айып тағылған/*айып тағылған$
  • 1 ^80/*80$
  • 1 ^40/*40$
  • 1 ^307/*307$
  • 1 ^20/*20$

stats:

  • total words: 621
  • analysed: 552
  • not analysed: 69
    • misc: 29
    • proper nouns: 23
    • numerals: 9
    • tokenisation errors: 8

apertium-tat

aytmatov

  • 50 ^Дүшән/*Дүшән$<cog><m>
  • 17 ^Алтынай/*Алтынай$<cog><f>
  • 14 ^мөгаллим/*мөгаллим$<n>
  • 6 ^Сатымкол/*Сатымкол$
  • 6 ^кигән/*кигән$ — phonology?
  • 5 ^мулла/*мулла$
  • 5 ^кинәт/*кинәт$
  • 5 ^Йә/*Йә$
  • 5 ^Дүшәннең/*Дүшәннең$<cog><m>
  • 4 ^Ниһаять/*Ниһаять$
  • 4 ^институтта/*институтта$
  • 4 ^берсе/*берсе$
  • 3 ^явыз/*явыз$
  • 3 ^ничектер/*ничектер$
  • 3 ^кичеп/*кичеп$
  • 3 ^йөри/*йөри$ — phonology??
  • 3 ^Дүшәннән/*Дүшәннән$<cog><m>
  • 3 ^Дүшәнне/*Дүшәнне$<cog><m>
  • 3 ^дөньяда/*дөньяда$ — phonology?
  • 3 ^бервакытта/*бервакытта$
  • 2 ^яме/*яме$
  • 2 ^юньләп/*юньләп$
  • 2 ^шинеленә/*шинеленә$
  • 2 ^чыдамлык/*чыдамлык$

new testament

  • 403 ^Мәсих/*Мәсих$
  • 264 ^Аллаһыга/*Аллаһыга$
  • 190 ^Паул/*Паул$
  • 159 ^Петер/*Петер$
  • 113 ^Яхъя/*Яхъя$
  • 108 ^берсе/*берсе$
  • 97 ^Аллаһыдан/*Аллаһыдан$
  • 90 ^шаһитлек/*шаһитлек$
  • 89 ^Мәсихнең/*Мәсихнең$
  • 88 ^Муса/*Муса$
  • 73 ^ллә/*ллә$
  • 69 ^руханилар/*руханилар$
  • 66 ^ы/*ы$
  • 66 ^Шимун/*Шимун$
  • 60 ^Пилат/*Пилат$
  • 57 ^хакына/*хакына$
  • 57 ^каршында/*каршында$
  • 56 ^Мәсихкә/*Мәсихкә$
  • 55 ^гыйбрәтле/*гыйбрәтле$
  • 52 ^явыз/*явыз$
  • 52 ^фарисейләр/*фарисейләр$
  • 49 ^Һируд/*Һируд$
  • 49 ^һәммәсе/*һәммәсе$
  • 49 ^хачка/*хачка$
  • 48 ^Давыт/*Давыт$
  • 47 ^канунчылар/*канунчылар$
  • 43 ^Паулны/*Паулны$
  • 43 ^дучар/*дучар$
  • 42 ^берсен/*берсен$
  • 39 ^иминлек/*иминлек$
  • 39 ^игелекле/*игелекле$
  • 39 ^ә/ә<cnjcoo>/ә<ij>$^ллә/*ллә$
  • 39 ^Аллаһысы/*Аллаһысы$
  • 36 ^Имандашлар/*Имандашлар$
  • 35 ^Паулның/*Паулның$
  • 34 ^барысын/*барысын$
  • 33 ^язылганча/*язылганча$
  • 33 ^һәммә/*һәммә$
  • 33 ^савыктыра/*савыктыра$
  • 33 ^Мәсихне/*Мәсихне$
  • 33 ^Барнаб/*Барнаб$
  • 32 ^икърар/*икърар$
  • 31 ^шакшы/*шакшы$
  • 31 ^рәсүлләр/*рәсүлләр$
  • 31 ^дөньяда/*дөньяда$

quran

  • 930 ^Аллаһуга/*Аллаһуга$
  • 880 ^Ий/*Ий$
  • 633 ^Аллаһудан/*Аллаһудан$
  • 506 ^Аллаһуның/*Аллаһуның$
  • 484 ^г/*г$
  • 462 ^ґәзаб/*ґәзаб$
  • 357 ^Мухәммәд/*Мухәммәд$
  • 346 ^Тәхкыйк/*Тәхкыйк$
  • 300 ^кеби/*кеби$
  • 274 ^Аллаһу/*Аллаһу$
  • 270 ^итагать/*итагать$
  • 245 ^Муса/*Муса$
  • 217 ^дөньяда/*дөньяда$ — phonology?
  • 209 ^Әйә/*Әйә$
  • 189 ^инкяр/*инкяр$
  • 183 ^тәхкыйк/*тәхкыйк$
  • 176 ^соңра/*соңра$
  • 163 ^Дәхи/*Дәхи$
  • 143 ^барча/*барча$
  • 142 ^тәгалә/*тәгалә$
  • 140 ^ґәзабы/*ґәзабы$
  • 132 ^нә/*нә$
  • 130 ^мөшрикләр/*мөшрикләр$
  • 129 ^хәрам/*хәрам$

In the quran corpus there seem to be some non-standard orthographical conventions, like the use of ‹ґ› for /гъ/ before front vowels.

news

  • 2743 ^берсе/*берсе$
  • 2342 ^нче/*нче$
  • 1606 ^биредә/*биредә$
  • 1443 ^Чаллы/*Чаллы$
  • 1311 ^уку/*уку$
  • 1310 ^булганча/*булганча$
  • 1245 ^ның/*ның$
  • 1225 ^Биредә/*Биредә$
  • 1111 ^сәбәпле/*сәбәпле$
  • 1063 ^хәбәр иткәнчә/*хәбәр иткәнчә$
  • 1047 ^Г/*Г$
  • 1024 ^Тукай/*Тукай$
  • 982 ^А/*А$
  • 959 ^Дмитрий/*Дмитрий$
  • 952 ^Татнефть/*Татнефть$
  • 951 ^фестивале/*фестивале$ - phonology
  • 924 ^КАМАЗ/*КАМАЗ$
  • 918 ^хакы/*хакы$
  • 893 ^Р/*Р$
  • 884 ^Метшин/*Метшин$
  • 881 ^җәмгыяте/*җәмгыяте$
  • 847 ^каршындагы/*каршындагы$
  • 844 ^Ульяновски/*Ульяновски$
  • 838 ^Ауропа/*Ауропа$
  • 835 ^комплексы/*комплексы$
  • 833 ^Илдар/*Илдар$
  • 828 ^Илсур/*Илсур$
  • 827 ^югары уку/*югары уку$
  • 807 ^ниятли/*ниятли$
  • 797 ^Римма/*Римма$
  • 782 ^институты/*институты$
  • 770 ^Әлмәт/*Әлмәт$
  • 768 ^кагылышлы/*кагылышлы$
  • 768 ^журналистлар/*журналистлар$
  • 757 ^информ/*информ$
  • 753 ^белдергәнчә/*белдергәнчә$
  • 747 ^эшлекле/*эшлекле$
  • 740 ^В/*В$
  • 736 ^үткәнчә/*үткәнчә$
  • 733 ^сумлык/*сумлык$
  • 723 ^Фәнис/*Фәнис$
  • 719 ^мэры/*мэры$
  • 717 ^нә/*нә$
  • 700 ^каршында/*каршында$
  • 698 ^бәясе/*бәясе$

Wikipedia

  • 302 ^туа/*туа$ — phonology?
  • 128 ^әдәбияты/*әдәбияты$ — phonology?
  • 124 ^дөньяга/*дөньяга$ — phonology?
  • 115 ^Г/*Г$
  • 89 ^нче/*нче$
  • 88 ^декабрендә/*декабрендә$
  • 83 ^июлендә/*июлендә$
  • 80 ^октябрендә/*октябрендә$
  • 80 ^ноябрендә/*ноябрендә$
  • 77 ^берсе/*берсе$
  • 75 ^А/*А$
  • 74 ^июнендә/*июнендә$
  • 69 ^сентябрендә/*сентябрендә$
  • 67 ^Тукай/*Тукай$
  • 65 ^февралендә/*февралендә$
  • 60 ^В/*В$
  • 58 ^эшкәрткеч/*эшкәрткеч$
  • 55 ^Н/*Н$
  • 55 ^апрелендә/*апрелендә$
  • 54 ^өязе/*өязе$
  • 51 ^Габдулла/*Габдулла$
  • 50 ^б./*б.$
  • 47 ^укыта/*укыта$
  • 47 ^сәбәпле/*сәбәпле$
  • 45 ^шигъри/*шигъри$
  • 42 ^Ф/*Ф$
  • 41 ^һ./*һ.$
  • 41 ^туып/*туып$
  • 41 ^С/*С$
  • 41 ^Муса/*Муса$
  • 37 ^училищесында/*училищесында$
  • 37 ^Сембер/*Сембер$
  • 37 ^каршындагы/*каршындагы$
  • 36 ^педагогия/*педагогия$
  • 36 ^Кайбыч/*Кайбыч$
  • 36 ^Арча/*Арча$
  • 35 ^Р/*Р$
  • 35 ^Олимпия/*Олимпия$
  • 34 ^мулла/*мулла$
  • 34 ^йөри/*йөри$
  • 34 ^Әлмәт/*Әлмәт$