User:Pmodi/GSOC 2020 proposal: Hindi-Punjabi/progress

From Apertium
Jump to navigation Jump to search

Current tasks(Week 5)

  • Fix सब__prn for खुद
  • Fix determiners in Hindi (Add काफी to determiners)
  • Add post-positions to definitions - ਹਸਪਤਾਲੋਂ = ਹਸਪਤਾਲ ਤੋਂ.
  • What is the analysis for ਦੋਸਤੋਂ.
  • ਮੈਂ is the translation for मैंने and मैं. Add transfer rule and check if tagger correctly identifies which one is being picked.
  • Fix alternate spellings analyses..
  • Complete manual analysis of bidix entries for adjectives and adverbs.
  • Add more verbs.
  • Run testvoc on Adjectives and Adverbs.
में तीसरी क्लास में दाखिला लिया था उस स्कूल में, बचपन के दिन थे दुनियादारी का ज़्यादा पता नहीं था 
पढ़ते पढ़ते ६वीं क्लास में आ गए अभी भी बचपन था पर दुनियादारी को थोड़ा-बहुत समझने लग गए थे। 
बहुत सारे यार दोस्त नहीं थे मेरे, अपनी मस्ती में मस्त रहने वाला था। 
जब मैं छेवीं क्लास में आया मेरा सेक्शन बदल दिया गया।  
उस क्लास में मेरी जान-पहचान वाला कोई नहीं था
मैं बहुत सहमा  हुआ था 
तब अचानक पंजाबी वाली मैडम ने मुझे बुलाया और कविता पढ़ने को कहा 
पहले तो मैं बहुत डर गया था क्यूंकि उस क्लास में लड़कियों की गिनती लड़कों जितनी ही थी 
मैंने कविता पढ़नी शुरू कर दी तो अचानक मेरा ध्यान एक दम एक लड़की की ओर गया 
उसके चहरे पर मासूमियत बच्चे जैसी थी 
उस को मेक-अप या फ़िल्टर लगाने की ज़रुरत ही नहीं पड़ती होती क्यूंकि वह अच्छी ही इतनी थी की सुंदरता उसके सामने बहुत छोटा रह जाता 
उस समय मैं पहली बार उसको देखा
उसका ध्यान मेरी तरफ नहीं गया
वह अपनी पढाई में रुझी हुई थी 
कुछ महीनों तक उसको देखता रहा पर उसको कभी बुलाया नहीं था 
उसके साथ बात करने की हिम्मत ही नहीं पड़ती थी 
एक बार मैं स्कूल का काम पूरा कर के नहीं गया तो मुझे मैडम ने किसी लड़की की कॉपी से काम करने के लिए कहा 
मैं बहुत खुश हुआ की आज उससे कॉपी ले लूँगा 
इस बहाने उसके साथ बोलचाल तो होगा 
मैं धीरे-धीरे उसकी ओर बढ़ा 
मेरा दिल तो ऐसे धड़क रहा था जैसे किसी लड़की को प्रोपोज़ करने के लिए जा रहा हूँ और मेरे आवाज़ देने पर जब उसने पलट के देखा तो एक पल मुझे ऐसा लगा जैसे दुनिया का स्वर्ग कश्मीर मेरे में समा गया हो और आगे उसने मीठी सी आवाज़ में मुझे कॉपी देने से इंकार कर दिया 
मैं अपना मुरझाया चहरा लेकर वापस आ गया 
मुझे बुरा भी बहुत लग रहा था पर एक तरफ ख़ुशी भी बहुत हो रही थी कि उसको बुलाया तो है ...

देकते करते दो साल बीत गए।  
उसको देखना ही इतना अच्छा लगता था कि मैं मन ही मन उसके साथ कई बातें कर लेता 
वो सभी से अलग थी, चुन्नी हमेशा उसके सर पर रहती थी और हाथ में एक सिमरन पाया हुआ था। 
मैंने उसकी पसंद-नापसंद हर अच्छी बुरी आदत याद रखी हुई थी 
वह हमेशा अकेले बैठे हुए मुँह में कुछ गुनगुनाती रहती थी।  

----------------------------------------------------------

ਮੈਂ ਤੀਸਰੀ ਕਲਾਸ ਵਿੱਚ ਦਾਖਲਾ ਲਿਆ ਸੀ ਉਸ ਸਕੂਲ ਵਿਚ, ਬਚਪਨ ਦੇ ਦਿਨ ਸੀ ਦੁਨੀਆਂਦਾਰੀ ਦਾ ਬਹੁਤਾ ਪਤਾ ਨਹੀਂ ਸੀ 
ਪੜ੍ਹਦੇ ਪੜ੍ਹਦੇ 6ਵੀਂ ਕਲਾਸ ਵਿੱਚ ਆ ਗਏ ਹੈਗਾ ਅਜੇ ਵੀ ਬਚਪਨ ਸੀ ਪਰ ਦੁਨੀਆਂਦਾਰੀ ਨੂੰ ਥੋੜ੍ਹਾ-ਬਹੁਤ ਸਮਝਣ ਲੱਗ ਪਏ ਸੀ। 
ਬਹੁਤੇ ਯਾਰ ਬੇਲੀ ਨਹੀਂ ਸੀ ਮੇਰੇ, ਆਪਣੀ ਮਸਤੀ ਵਿਚ ਮਸਤ ਰਹਿਣ ਵਾਲਾ ਸੀ। 
ਜਦੋਂ ਮੈਂ ਛੇਵੀਂ ਕਲਾਸ ਵਿੱਚ ਆਇਆ ਮੇਰਾ ਸੈਕਸ਼ਨ ਬਦਲ ਦਿੱਤਾ ਗਿਆ। 
ਉਸ ਕਲਾਸ ਵਿਚ ਮੇਰੀ ਜਾਣ-ਪਛਾਣ ਵਾਲਾ ਕੋਈ ਨਹੀਂ ਸੀ 
ਮੈਂ ਬਹੁਤ ਸਹਿਮਿਆ ਹੋਇਆ ਸੀ ਤਾਂ ਅਚਾਨਕ ਪੰਜਾਬੀ ਵਾਲੀ ਮੈਡਮ ਮੈਨੂੰ ਬੁਲਾਉਂਦੀ ਤੇ ਕਵਿਤਾ ਪੜ੍ਹਨ ਨੂੰ ਕਹਿੰਦੀ 
ਪਹਿਲਾਂ ਤਾਂ ਮੈਂ ਬਹੁਤ ਡਰ ਗਿਆ ਸੀ ਕਿਉਂਕਿ ਉਸ ਕਲਾਸ ਵਿੱਚ ਕੁੜੀਆਂ ਦੀ ਗਿਣਤੀ ਮੁੰਡਿਆਂ ਜਿੰਨੀ ਹੀ ਸੀ
ਮੈਂ ਕਵਿਤਾ ਪੜ੍ਹਨੀ ਸ਼ੁਰੂ ਕਰ ਦਿੱਤੀ ਤਾਂ ਅਚਾਨਕ ਮੇਰਾ ਧਿਆਨ ਇਕ ਦਮ ਇਕ ਕੁੜੀ ਵੱਲ ਗਿਆ 
ਉਸ ਦੇ ਚਿਹਰੇ ਤੇ ਮਾਸੂਮੀਅਤ ਬੱਚੇ ਵਰਗੀ ਸੀ 
ਉਸ ਨੂੰ ਮੇਕ-ਅੱਪ ਜਾਂ ਫਿਲਟਰ ਲਾਉਣ ਦੀ ਜ਼ਰੂਰਤ ਹੀ ਨਹੀਂ ਪੈਂਦੀ ਹੋਣੀ ਕਿਉਂਕਿ ਉਹ ਚੰਗੀ ਹੀ ਐਨੀ ਸੀ ਕੀ ਸੋਹਣਾ ਪਣ 
ਉਹਦੇ ਮੂਹਰੇ ਬਹੁਤ ਛੋਟਾ ਰਹਿ ਜਾਂਦਾ 
ਉਸ ਸਮੇਂ ਮੈਂ ਪਹਿਲੀ ਵਾਰ ਉਸ ਨੂੰ ਦੇਖਿਆ 
ਉਸ ਦਾ ਧਿਆਨ ਮੇਰੇ ਵਲ ਨਹੀਂ ਗਿਆ 
ਉਹ ਆਪਣੀ ਪੜ੍ਹਾਈ ਵਿੱਚ ਰੁੱਝੀ ਹੋਈ ਸੀ 
ਕੁਝ ਮਹੀਨਿਆਂ ਤਕ ਉਸਨੂੰ ਦੇਖਦਾ ਰਿਹਾ ਪਰ ਉਸ ਨੂੰ ਕਦੀ ਬੁਲਾਇਆ ਨਹੀਂ ਸੀ 
ਉਸ ਨਾਲ ਗੱਲ ਕਰਨ ਦੀ ਹਿੰਮਤ ਹੀ ਨਹੀਂ ਸੀ ਪੈਂਦੀ। 
ਇੱਕ ਵਾਰ ਮੈਂ ਸਕੂਲ ਦਾ ਕੰਮ ਪੂਰਾ ਕਰ ਕੇ ਨਹੀਂ ਗਿਆ ਤਾਂ ਮੈਨੂੰ ਮੈਡਮ ਨੇ ਕਿਸੇ ਕੁੜੀ ਦੀ ਕਾਪੀ ਤੋਂ ਕੰਮ ਕਰਨ ਲਈ ਕਿਹਾ 
ਮੈਂ ਬਹੁਤ ਖੁਸ਼ ਹੋਇਆ ਕੀ ਅੱਜ ਉਸ ਕੋਲੋਂ ਕਾਪੀ ਲੈ ਲਵਾਂਗਾ ਇਸੇ ਬਹਾਨੇ ਉਸ ਨਾਲ ਬੋਲਚਾਲ ਤਾਂ ਹੋਵੇਗਾ
ਮੈਂ ਹੌਲੀ-ਹੌਲੀ ਉਸ ਵੱਲ ਵਧਿਆ 
ਮੇਰਾ ਦਿਲ ਤਾਂ ਇੰਝ ਧੜਕ ਰਿਹਾ ਸੀ ਜਿਵੇਂ ਕਿਸੇ ਕੁੜੀ ਨੂੰ ਪ੍ਰਪੋਜ਼ ਕਰਨ ਲਈ ਜਾ ਰਿਹਾ ਹੋਵਾਂ ਤਾਂ ਮੇਰੇ ਅਵਾਜ਼ ਦੇਣ ਤੇ ਜਦੋਂ ਉਸ ਨੇ ਪਲਟ ਕੇ ਦੇਖਿਆ ਤਾਂ ਇੱਕ ਪਲ ਮੈਨੂੰ ਏਦਾਂ ਲੱਗਾ ਜਿਵੇਂ ਦੁਨੀਆਂ ਦਾ ਸਵਰਗ ਕਸ਼ਮੀਰ ਮੇਰੇ ਵਿਚ ਸਮਾਂ ਗਿਆ ਹੋਵੇ ਤਾਂ ਅੱਗੋ ਉਸ ਨੇ ਮਿੱਠੀ ਜਿਹੀ ਆਵਾਜ਼ ਵਿੱਚ ਮੈਨੂੰ ਕਾਪੀ ਦੇਣ ਤੋਂ ਇਨਕਾਰ ਕਰ ਦਿੱਤਾ 
ਮੈਂ ਆਪਣਾ ਮੁਰਝਾਇਆ ਚਿਹਰਾ ਲੈ ਕੇ ਵਾਪਸ ਆ ਗਿਆ 
ਮੈਨੂੰ ਬੁਰਾ ਵੀ ਬਹੁਤ ਲੱਗ ਰਿਹਾ ਸੀ ਪਰ ਇਕ ਪਾਸੇ ਖੁਸ਼ੀ ਵੀ ਬਹੁਤ ਹੋ ਰਹੀ ਸੀ ਕਿ ਉਸ ਨੂੰ ਬੁਲਾਇਆ ਤਾਂ ਹੈ…
ਦੇਖਦਿਆਂ ਕਰਦਿਆਂ ਦੋ ਸਾਲ ਬੀਤ ਗਏ। 
ਉਸ ਨੂੰ ਦੇਖਣਾ ਹੀ ਏਨਾ ਚੰਗਾ ਲਗਦਾ ਸੀ ਕਿ ਮੈਂ ਮਨ ਹੀ ਮਨ ਉਸ ਨਾਲ ਕਈ ਗੱਲਾਂ ਕਰ ਲੈਂਦਾ 
ਉਹ ਸਾਰਿਆਂ ਨਾਲੋਂ ਵੱਖ ਸੀ, ਚੁੰਨੀ ਹਮੇਸ਼ਾਂ ਉਸ ਦੇ ਸਿਰ ਤੇ ਰਹਿੰਦੀ ਸੀ ਤੇ ਹੱਥ ਵਿੱਚ ਇੱਕ ਸਿਮਰਨ ਪਾਇਆ ਹੋਇਆ ਸੀ। 
ਮੈਂ ਉਸ ਦੀ ਪਸੰਦ-ਨਾਪਸੰਦ ਹਰ ਚੰਗੀ ਮਾੜੀ ਆਦਤ ਜਾਦ ਰੱਖੀ ਹੋਈ ਸੀ 
ਉਹ ਹਮੇਸ਼ਾ ਕੱਲੇ ਬੈਠੇ ਹੋਏ ਮੂੰਹ ਵਿੱਚ ਕੁਝ ਗੁਣ ਗਣਾਉਂਦੀ ਰਹਿੰਦੀ ਸੀ।

Progress

Progress table

Week Stems Coverage WER,PER Progress
dates hin pan hin-pan hin pan hin-pan hin→pan pan→hin Evaluation Notes
1 May 1-24 - - - - 47% - - - - Original coverage - 12.8%
2 May 24-31 - +1400 - - 52% - 36.83%, 33.84% 40.03%, 36.93% - WER, PER On a set of 25 sentences(612 words)
3 June 1-7 - +500 +250 - 58% - 49.52%, 42.71% 48.65%, 44.03% - WER, PER On a set of 50 sentences(1038 words)
4 June 8-14 +50 +1500 +1000 - 63% - 41.36%, 35.82% 41.47%, 37.03% - WER, PER On a set of 50 sentences(1038 words)
5 June 15-21 - +50 +200 - 66% 52.8% 41.36%, 35.82% 41.47%, 37.03% - WER, PER On a set of 50 sentences(1038 words)

DONE

  • DONE - Bidix updates.
  • DONE - Fixed errors with postposition transfer.
  • DONE - Added proper nouns.
  • DONE - Added noun paradigms.
  • DONE - Added Adverbs.
  • DONE - Added about 1400 adjective stems
  • DONE - Function words(cnj, det, prn, post, gen_endings), Coverage > 47%
  • DONE - Collected parallel texts to calculate WER,PER etc..
  • DONE - Added bidirectional dictionary(33k paradigms)
  • DONE - Fixed bidirectional translation i.e. pan->hin(gave close to human translation for small test set, even though similar transfer rules were copied)
  • DONE - Scraped all Wikipedia texts and made a combined frequency list.
  • DONE - Frequency lists using WikiExtractor on latest dump.

IN PROGRESS

  • IN PROGRESS - Adding Verbs.
  • IN PROGRESS - Fix inconsistencies with parallel texts.
  • IN PROGRESS - Practicing basic understanding of Persian script.

TODO(Next week - Week 3)

  • Add verbs and nouns.

Literature(Apertium Wiki) Covered

  • DONE - Calculating Coverage.
  • DONE - A long introduction on Transfer Rules.
  • DONE - Transfer Rules examples
  • DONE - Wikipedia Dumps.
  • DONE - Generating Frequency lists.
  • DONE - Building Dictionaries#Monolingual.
  • DONE - Evaluation.
  • DONE - Extract.
  • DONE - Monodix Basics
  • DONE - Improved Corpus Based Paradigm Matching.
  • DONE - Transliteration.
  • DONE - Workflow reference.
  • DONE - Tagger Tranining.
  • DONE - Modes introduction.
  • DONE - Apertium-viewer.