Difference between revisions of "User:Pmodi/GSOC 2020 proposal: Hindi-Punjabi/progress"

From Apertium
Jump to navigation Jump to search
 
(8 intermediate revisions by the same user not shown)
Line 1: Line 1:
==Current tasks(Week 5)==
+
==Current tasks(Week 8)==
  +
* Number of subject-object matters for pronouns : ਮੇਰੀਆਂ | ਸਾਡੀ. मेरे(marked mf) | मेरा(marked m)
 
* Fix सब__prn for खुद
 
* Fix सब__prn for खुद
 
* Fix determiners in Hindi (Add काफी to determiners)
 
* Fix determiners in Hindi (Add काफी to determiners)
Line 6: Line 7:
 
* ਮੈਂ is the translation for मैंने and मैं. Add transfer rule and check if tagger correctly identifies which one is being picked.
 
* ਮੈਂ is the translation for मैंने and मैं. Add transfer rule and check if tagger correctly identifies which one is being picked.
 
* Fix alternate spellings analyses..
 
* Fix alternate spellings analyses..
  +
* कि v/s की punjabi ki can also be kya.
  +
* Fix gender for adj - ਬਹੁਤੀ
 
* Complete manual analysis of bidix entries for adjectives and adverbs.
 
* Complete manual analysis of bidix entries for adjectives and adverbs.
 
* Add more verbs.
 
* Add more verbs.
 
* Run testvoc on Adjectives and Adverbs.
 
* Run testvoc on Adjectives and Adverbs.
   
  +
* aisa <noun> - ajiha BUT aisa <verb> innj.
<pre>
 
मैंने तीसरी क्लास में दाखिला लिया था उस स्कूल में, बचपन के दिन थे दुनियादारी का ज़्यादा पता नहीं था
 
पढ़ते पढ़ते ६वीं क्लास में आ गए अभी भी बचपन था पर दुनियादारी को थोड़ा-बहुत समझने लग गए थे।
 
बहुत सारे यार दोस्त नहीं थे मेरे, अपनी मस्ती में मस्त रहने वाला था।
 
जब मैं छेवीं क्लास में आया मेरा सेक्शन बदल दिया गया।
 
उस क्लास में मेरी जान-पहचान वाला कोई नहीं था
 
मैं बहुत सहमा हुआ था
 
तब अचानक पंजाबी वाली मैडम ने मुझे बुलाया और कविता पढ़ने को कहा
 
पहले तो मैं बहुत डर गया था क्यूंकि उस क्लास में लड़कियों की गिनती लड़कों जितनी ही थी
 
मैंने कविता पढ़नी शुरू कर दी तो अचानक मेरा ध्यान एक दम एक लड़की की ओर गया
 
उसके चहरे पर मासूमियत बच्चे जैसी थी
 
उस को मेक-अप या फ़िल्टर लगाने की ज़रुरत ही नहीं पड़ती होती क्यूंकि वह अच्छी ही इतनी थी की सुंदरता उसके सामने बहुत छोटा रह जाता
 
उस समय मैं पहली बार उसको देखा
 
उसका ध्यान मेरी तरफ नहीं गया
 
वह अपनी पढाई में रुझी हुई थी
 
कुछ महीनों तक उसको देखता रहा पर उसको कभी बुलाया नहीं था
 
उसके साथ बात करने की हिम्मत ही नहीं पड़ती थी
 
एक बार मैं स्कूल का काम पूरा कर के नहीं गया तो मुझे मैडम ने किसी लड़की की कॉपी से काम करने के लिए कहा
 
मैं बहुत खुश हुआ की आज उससे कॉपी ले लूँगा
 
इस बहाने उसके साथ बोलचाल तो होगा
 
मैं धीरे-धीरे उसकी ओर बढ़ा
 
मेरा दिल तो ऐसे धड़क रहा था जैसे किसी लड़की को प्रोपोज़ करने के लिए जा रहा हूँ और मेरे आवाज़ देने पर जब उसने पलट के देखा तो एक पल मुझे ऐसा लगा जैसे दुनिया का स्वर्ग कश्मीर मेरे में समा गया हो और आगे उसने मीठी सी आवाज़ में मुझे कॉपी देने से इंकार कर दिया
 
मैं अपना मुरझाया चहरा लेकर वापस आ गया
 
मुझे बुरा भी बहुत लग रहा था पर एक तरफ ख़ुशी भी बहुत हो रही थी कि उसको बुलाया तो है ...
 
 
देकते करते दो साल बीत गए।
 
उसको देखना ही इतना अच्छा लगता था कि मैं मन ही मन उसके साथ कई बातें कर लेता
 
वो सभी से अलग थी, चुन्नी हमेशा उसके सर पर रहती थी और हाथ में एक सिमरन पाया हुआ था।
 
मैंने उसकी पसंद-नापसंद हर अच्छी बुरी आदत याद रखी हुई थी
 
वह हमेशा अकेले बैठे हुए मुँह में कुछ गुनगुनाती रहती थी।
 
 
 
मैं अब आठवीं क्लास में था
 
वो कई बार स्कूल में सुबह के वक़्त होने वाले भजन कीर्तन में हिस्सा लेती
 
उसको जाकर भजन कीर्तन करना थोड़ा बहुत पसंद था और मैं उस समय हारमोनियम सीखना शुरू कर दिया पता नहीं क्यों मुझे नहीं पता था
 
मेरा एक बहुत ही पक्का दोस्त बन चूका था जो कि उसके गाँव का था
 
घर भी उनका आस पास था
 
मैं कई बार उसके बारे में उस मित्र से पूछता रहता
 
मैं क्लास में ज़्यादातर उसके साइड वाले सामने बैंच पर बैठना पसंद करता था
 
इस तरह करने से मुझे एक अलग ही ख़ुशी मिलती थी
 
और पहले की तरह टीचर के कहने पर एक बार फिर उससे कॉपी लेने गया
 
मन में फिर बहुत डर था
 
और भी क्लास में लडकियां थीं पर उसके साथ बार करने पर पता नहीं क्यों मन घबरा जाता है
 
मैं उससे कॉपी लेने के लिए गया तो वह बहुत ही मीठी आवाज़ में बोली बताओ कोनसी कॉपी चाहिए तो मुझे जो कॉपी चाहिए थी वो लेकर वापस आ गया
 
उस समय मुझे इतनी ज़्यादा ख़ुशी थी की मैं बयान नहीं कर सकता, इस तरह कॉपी देने के बहाने भी उसके साथ बात करके आया
 
उस दिन मेरे मन में से थोड़ा बहुत डर दूर हो चूका था
 
हमारी बहुत ज़्यादा तो बात नहीं होती बस स्कूल का काम पूछ लेना कोई कॉपी ले लेनी ऐसी ही बातें होती थीं पर फिर भी मन को एक हौसला था की बात होती तो है...उसे चूना तो दूर की बात कभी उसकी आखों में आखें दाल कर बात नहीं की थी
 
इतनी महिमा थी उसकी आँखों में
 
 
----------------------------------------------------------
 
 
ਮੈਂ ਤੀਸਰੀ ਕਲਾਸ ਵਿੱਚ ਦਾਖਲਾ ਲਿਆ ਸੀ ਉਸ ਸਕੂਲ ਵਿਚ, ਬਚਪਨ ਦੇ ਦਿਨ ਸੀ ਦੁਨੀਆਂਦਾਰੀ ਦਾ ਬਹੁਤਾ ਪਤਾ ਨਹੀਂ ਸੀ
 
ਪੜ੍ਹਦੇ ਪੜ੍ਹਦੇ 6ਵੀਂ ਕਲਾਸ ਵਿੱਚ ਆ ਗਏ ਹੈਗਾ ਅਜੇ ਵੀ ਬਚਪਨ ਸੀ ਪਰ ਦੁਨੀਆਂਦਾਰੀ ਨੂੰ ਥੋੜ੍ਹਾ-ਬਹੁਤ ਸਮਝਣ ਲੱਗ ਪਏ ਸੀ।
 
ਬਹੁਤੇ ਯਾਰ ਬੇਲੀ ਨਹੀਂ ਸੀ ਮੇਰੇ, ਆਪਣੀ ਮਸਤੀ ਵਿਚ ਮਸਤ ਰਹਿਣ ਵਾਲਾ ਸੀ।
 
ਜਦੋਂ ਮੈਂ ਛੇਵੀਂ ਕਲਾਸ ਵਿੱਚ ਆਇਆ ਮੇਰਾ ਸੈਕਸ਼ਨ ਬਦਲ ਦਿੱਤਾ ਗਿਆ।
 
ਉਸ ਕਲਾਸ ਵਿਚ ਮੇਰੀ ਜਾਣ-ਪਛਾਣ ਵਾਲਾ ਕੋਈ ਨਹੀਂ ਸੀ
 
ਮੈਂ ਬਹੁਤ ਸਹਿਮਿਆ ਹੋਇਆ ਸੀ ਤਾਂ ਅਚਾਨਕ ਪੰਜਾਬੀ ਵਾਲੀ ਮੈਡਮ ਮੈਨੂੰ ਬੁਲਾਉਂਦੀ ਤੇ ਕਵਿਤਾ ਪੜ੍ਹਨ ਨੂੰ ਕਹਿੰਦੀ
 
ਪਹਿਲਾਂ ਤਾਂ ਮੈਂ ਬਹੁਤ ਡਰ ਗਿਆ ਸੀ ਕਿਉਂਕਿ ਉਸ ਕਲਾਸ ਵਿੱਚ ਕੁੜੀਆਂ ਦੀ ਗਿਣਤੀ ਮੁੰਡਿਆਂ ਜਿੰਨੀ ਹੀ ਸੀ
 
ਮੈਂ ਕਵਿਤਾ ਪੜ੍ਹਨੀ ਸ਼ੁਰੂ ਕਰ ਦਿੱਤੀ ਤਾਂ ਅਚਾਨਕ ਮੇਰਾ ਧਿਆਨ ਇਕ ਦਮ ਇਕ ਕੁੜੀ ਵੱਲ ਗਿਆ
 
ਉਸ ਦੇ ਚਿਹਰੇ ਤੇ ਮਾਸੂਮੀਅਤ ਬੱਚੇ ਵਰਗੀ ਸੀ
 
ਉਸ ਨੂੰ ਮੇਕ-ਅੱਪ ਜਾਂ ਫਿਲਟਰ ਲਾਉਣ ਦੀ ਜ਼ਰੂਰਤ ਹੀ ਨਹੀਂ ਪੈਂਦੀ ਹੋਣੀ ਕਿਉਂਕਿ ਉਹ ਚੰਗੀ ਹੀ ਐਨੀ ਸੀ ਕੀ ਸੋਹਣਾ ਪਣ
 
ਉਹਦੇ ਮੂਹਰੇ ਬਹੁਤ ਛੋਟਾ ਰਹਿ ਜਾਂਦਾ
 
ਉਸ ਸਮੇਂ ਮੈਂ ਪਹਿਲੀ ਵਾਰ ਉਸ ਨੂੰ ਦੇਖਿਆ
 
ਉਸ ਦਾ ਧਿਆਨ ਮੇਰੇ ਵਲ ਨਹੀਂ ਗਿਆ
 
ਉਹ ਆਪਣੀ ਪੜ੍ਹਾਈ ਵਿੱਚ ਰੁੱਝੀ ਹੋਈ ਸੀ
 
ਕੁਝ ਮਹੀਨਿਆਂ ਤਕ ਉਸਨੂੰ ਦੇਖਦਾ ਰਿਹਾ ਪਰ ਉਸ ਨੂੰ ਕਦੀ ਬੁਲਾਇਆ ਨਹੀਂ ਸੀ
 
ਉਸ ਨਾਲ ਗੱਲ ਕਰਨ ਦੀ ਹਿੰਮਤ ਹੀ ਨਹੀਂ ਸੀ ਪੈਂਦੀ।
 
ਇੱਕ ਵਾਰ ਮੈਂ ਸਕੂਲ ਦਾ ਕੰਮ ਪੂਰਾ ਕਰ ਕੇ ਨਹੀਂ ਗਿਆ ਤਾਂ ਮੈਨੂੰ ਮੈਡਮ ਨੇ ਕਿਸੇ ਕੁੜੀ ਦੀ ਕਾਪੀ ਤੋਂ ਕੰਮ ਕਰਨ ਲਈ ਕਿਹਾ
 
ਮੈਂ ਬਹੁਤ ਖੁਸ਼ ਹੋਇਆ ਕੀ ਅੱਜ ਉਸ ਕੋਲੋਂ ਕਾਪੀ ਲੈ ਲਵਾਂਗਾ ਇਸੇ ਬਹਾਨੇ ਉਸ ਨਾਲ ਬੋਲਚਾਲ ਤਾਂ ਹੋਵੇਗਾ
 
ਮੈਂ ਹੌਲੀ-ਹੌਲੀ ਉਸ ਵੱਲ ਵਧਿਆ
 
ਮੇਰਾ ਦਿਲ ਤਾਂ ਇੰਝ ਧੜਕ ਰਿਹਾ ਸੀ ਜਿਵੇਂ ਕਿਸੇ ਕੁੜੀ ਨੂੰ ਪ੍ਰਪੋਜ਼ ਕਰਨ ਲਈ ਜਾ ਰਿਹਾ ਹੋਵਾਂ ਤਾਂ ਮੇਰੇ ਅਵਾਜ਼ ਦੇਣ ਤੇ ਜਦੋਂ ਉਸ ਨੇ ਪਲਟ ਕੇ ਦੇਖਿਆ ਤਾਂ ਇੱਕ ਪਲ ਮੈਨੂੰ ਏਦਾਂ ਲੱਗਾ ਜਿਵੇਂ ਦੁਨੀਆਂ ਦਾ ਸਵਰਗ ਕਸ਼ਮੀਰ ਮੇਰੇ ਵਿਚ ਸਮਾਂ ਗਿਆ ਹੋਵੇ ਤਾਂ ਅੱਗੋ ਉਸ ਨੇ ਮਿੱਠੀ ਜਿਹੀ ਆਵਾਜ਼ ਵਿੱਚ ਮੈਨੂੰ ਕਾਪੀ ਦੇਣ ਤੋਂ ਇਨਕਾਰ ਕਰ ਦਿੱਤਾ
 
ਮੈਂ ਆਪਣਾ ਮੁਰਝਾਇਆ ਚਿਹਰਾ ਲੈ ਕੇ ਵਾਪਸ ਆ ਗਿਆ
 
ਮੈਨੂੰ ਬੁਰਾ ਵੀ ਬਹੁਤ ਲੱਗ ਰਿਹਾ ਸੀ ਪਰ ਇਕ ਪਾਸੇ ਖੁਸ਼ੀ ਵੀ ਬਹੁਤ ਹੋ ਰਹੀ ਸੀ ਕਿ ਉਸ ਨੂੰ ਬੁਲਾਇਆ ਤਾਂ ਹੈ…
 
ਦੇਖਦਿਆਂ ਕਰਦਿਆਂ ਦੋ ਸਾਲ ਬੀਤ ਗਏ।
 
ਉਸ ਨੂੰ ਦੇਖਣਾ ਹੀ ਏਨਾ ਚੰਗਾ ਲਗਦਾ ਸੀ ਕਿ ਮੈਂ ਮਨ ਹੀ ਮਨ ਉਸ ਨਾਲ ਕਈ ਗੱਲਾਂ ਕਰ ਲੈਂਦਾ
 
ਉਹ ਸਾਰਿਆਂ ਨਾਲੋਂ ਵੱਖ ਸੀ, ਚੁੰਨੀ ਹਮੇਸ਼ਾਂ ਉਸ ਦੇ ਸਿਰ ਤੇ ਰਹਿੰਦੀ ਸੀ ਤੇ ਹੱਥ ਵਿੱਚ ਇੱਕ ਸਿਮਰਨ ਪਾਇਆ ਹੋਇਆ ਸੀ।
 
ਮੈਂ ਉਸ ਦੀ ਪਸੰਦ-ਨਾਪਸੰਦ ਹਰ ਚੰਗੀ ਮਾੜੀ ਆਦਤ ਜਾਦ ਰੱਖੀ ਹੋਈ ਸੀ
 
ਉਹ ਹਮੇਸ਼ਾ ਕੱਲੇ ਬੈਠੇ ਹੋਏ ਮੂੰਹ ਵਿੱਚ ਕੁਝ ਗੁਣ ਗਣਾਉਂਦੀ ਰਹਿੰਦੀ ਸੀ।
 
 
ਮੈਂ ਹੁਣ ਅੱਠਵੀਂ ਕਲਾਸ ਵਿਚ ਸੀ
 
ਉਹ ਕਈ ਵਾਰ ਸਕੂਲ ਵਿੱਚ ਸਵੇਰ ਵੇਲੇ ਹੋਣ ਵਾਲੇ ਭਜਨ ਕੀਰਤਨ ਵਿੱਚ ਹਿੱਸਾ ਲੈਂਦੀ
 
ਉਸ ਨੂੰ ਗਾ ਕੇ ਭਜਨ ਕੀਰਤਨ ਕਰਨਾ ਥੋੜ੍ਹਾ ਬਹੁਤ ਪਸੰਦ ਸੀ ਤਾਂ ਮੈਂ ਉਸ ਸਮੇਂ ਹਰਮੋਨੀਅਮ ਸਿੱਖਣਾ ਸ਼ੁਰੂ ਕਰ ਦਿੱਤਾ ਪਤਾ ਨਹੀਂ ਕਿਉਂ ਮੈਨੂੰ ਨਹੀਂ ਸੀ ਪਤਾ…
 
ਮੇਰਾ ਇੱਕ ਬਹੁਤ ਹੀ ਪੱਕਾ ਦੋਸਤ ਬਣ ਚੁੱਕਾ ਸੀ ਜੋ ਕਿ ਉਸ ਦੇ ਪਿੰਡ ਦਾ ਸੀ
 
ਘਰ ਵੀ ਉਹਨਾਂ ਦਾ ਲਾਗੋ ਲਾਗ ਸੀ
 
ਮੈਂ ਕਈ ਵਾਰ ਉਸ ਬਾਰੇ ਉਸ ਮਿੱਤਰ ਕੋਲੋਂ ਪੁੱਛਦਾ ਰਹਿੰਦਾ
 
ਮੈਂ ਕਲਾਸ ਵਿਚ ਜ਼ਿਆਦਾਤਰ ਉਸ ਦੇ ਸਾਈਡ ਵਾਲੇ ਸਾਹਮਣੇ ਬੈਂਚ ਤੇ ਬੈਠਣਾ ਪਸੰਦ ਕਰਦਾ ਸੀ
 
ਇਸ ਤਰ੍ਹਾਂ ਕਰਨ ਨਾਲ ਮੈਨੂੰ ਇਕ ਵੱਖਰੀ ਹੀ ਖੁਸ਼ੀ ਮਿਲਦੀ ਸੀ।
 
ਤਾਂ ਪਹਿਲਾਂ ਦੀ ਤਰਾਂ ਟੀਚਰ ਦੇ ਕਹਿਣ ਤੇ ਇਕ ਵਾਰ ਫਿਰ ਉਸ ਕੋਲੋਂ ਕਾਪੀ ਲੈਣ ਗਿਆ
 
ਮਨ ਵਿਚ ਫਿਰ ਬਹੁਤ ਡਰ ਸੀ ਹੋਰ ਵੀ ਕਲਾਸ ਵਿੱਚ ਕੁੜੀਆਂ ਹੈਗੀਅਾਂ ਸੀ ਪਰ ਉਸ ਨਾਲ ਗੱਲ ਕਰਨ ਤੇ ਪਤਾ ਨਹੀਂ ਕਿਉਂ ਮਨ ਘਬਰਾ ਜਾਂਦਾ ਸੀ
 
ਜਦੋਂ ਮੈਂ ਉਸ ਕੋਲੋਂ ਕਾਪੀ ਲੈਣ ਲਈ ਗਿਆ ਤਾਂ ਉਹ ਬਹੁਤ ਹੀ ਮਿੱਠੀ ਆਵਾਜ ਵਿੱਚ ਬੋਲੀ ਦੱਸੋ ਕਿਹੜੀ ਕਾਪੀ ਚਾਹੀਦੀ ਹੈ ਤਾਂ ਮੈਨੂੰ ਜੋ ਕਾਪੀ ਚਾਹੀਦੀ ਸੀ ਉਹ ਲੈ ਕੇ ਵਾਪਸ ਆ ਗਿਆ
 
ਉਸ ਸਮੇਂ ਮੈਨੂੰ ਐਨੀ ਕ ਜ਼ਿਆਦਾ ਖੁਸ਼ੀ ਸੀ ਕੀ ਮੈਂ ਬਿਆਨ ਨਹੀਂ ਕਰ ਸਕਦਾ, ਇਸ ਤਰ੍ਹਾਂ ਕਾਪੀ ਦੇਣ ਦੇ ਬਹਾਨੇ ਵੀ ਉਸ ਨਾਲ ਗੱਲ ਕਰਕੇ ਆਇਆ
 
ਉਸ ਦਿਨ ਮੇਰੇ ਮਨ ਵਿਚੋਂ ਥੋੜਾ ਬਹੁਤ ਡਰ ਦੂਰ ਹੋ ਚੁੱਕਾ ਸੀ
 
ਸਾਡੀ ਬਹੁਤੀ ਜ਼ਿਆਦਾ ਤਾਂ ਗੱਲ ਨਹੀਂ ਸੀ ਹੁੰਦੀ ਬਸ ਸਕੂਲ ਦਾ ਕੰਮ ਪੁੱਛ ਲੈਣਾ ਕੋਈ ਕਾਪੀ ਲੈ ਲੈਣੀ ਅਜਿਹੀਆਂ ਹੀ ਗੱਲਾਂ ਹੁੰਦੀਆਂ ਸੀ ਪਰ ਫਿਰ ਵੀ ਮਨ ਨੂੰ ਇਕ ਹੋਂਸਲਾ ਸੀ ਕੀ ਗੱਲ ਹੁੰਦੀ ਤਾਂ ਹੈ… ਉਹਨੂੰ ਛੁਣਾ ਤੇ ਦੂਰ ਦੀ ਗੱਲ ਕਦੀ ਉਸ ਦੀਆਂ ਅੱਖਾਂ ਵਿੱਚ ਅੱਖਾਂ ਪਾ ਕੇ ਗੱਲ ਨਹੀਂ ਸੀ ਕੀਤੀ
 
ਏਨਾਂ ਜਲਾਲ ਸੀ ਉਸ ਦੀਆਂ ਅੱਖਾਂ ਵਿਚ
 
</pre>
 
   
 
== Progress ==
 
== Progress ==
Line 121: Line 30:
 
! hin
 
! hin
 
! pan
 
! pan
! hin-pan
+
! pan-hin
 
! hin
 
! hin
 
! pan
 
! pan
! hin-pan
+
! pan-hin
 
! hin→pan
 
! hin→pan
 
! pan→hin
 
! pan→hin
Line 214: Line 123:
 
! -
 
! -
 
! WER, PER On a set of 50 sentences(1038 words)
 
! WER, PER On a set of 50 sentences(1038 words)
  +
|-
  +
  +
! 7
  +
! June 29-Jul 6
  +
! -
  +
! +350
  +
! +700
  +
! -
  +
! 71.3%
  +
! 61%
  +
! 39.76%, 34.22%
  +
! 40.03%, 36.23%
  +
! -
  +
! WER, PER On a set of 50 sentences(1038 words)
  +
|-
  +
  +
! 8
  +
! July 7-13
  +
! -
  +
! +1200
  +
! +1600
  +
! -
  +
! 73%
  +
! 63%
  +
! 39.76%, 34.22%
  +
! 40.03%, 36.23%
  +
! -
  +
! WER, PER On a set of 50 sentences(1038 words)
  +
|-
  +
  +
! 9
  +
! July 14-20
  +
! -
  +
! +2000
  +
! +2000
  +
! -
  +
! 74%
  +
! 65%
  +
! 36.76%, 32.22%
  +
! 39.03%, 33.53%
  +
! -
  +
! WER, PER On a set of 100 sentences(2140 words)
  +
|-
  +
  +
! 10
  +
! July 21-27
  +
! -
  +
! +2500
  +
! +2200
  +
! -
  +
! 75%
  +
! 67%
  +
! 33.76%, 29.62%
  +
! 35.03%, 31.23%
  +
! -
  +
! WER, PER On a set of 100 sentences(2140 words)
  +
|-
  +
  +
! 11
  +
! July 28-Aug 2
  +
! -
  +
! +1200
  +
! +1300
  +
! -
  +
! 78%
  +
! 70%
  +
! 32.34%, 28.82%
  +
! 34.45%, 30.43%
  +
! -
  +
! WER, PER On a set of 100 sentences(2140 words)
 
|}
 
|}
   

Latest revision as of 12:28, 10 August 2020

Current tasks(Week 8)[edit]

  • Number of subject-object matters for pronouns : ਮੇਰੀਆਂ | ਸਾਡੀ. मेरे(marked mf) | मेरा(marked m)
  • Fix सब__prn for खुद
  • Fix determiners in Hindi (Add काफी to determiners)
  • Add post-positions to definitions - ਹਸਪਤਾਲੋਂ = ਹਸਪਤਾਲ ਤੋਂ.
  • What is the analysis for ਦੋਸਤੋਂ.
  • ਮੈਂ is the translation for मैंने and मैं. Add transfer rule and check if tagger correctly identifies which one is being picked.
  • Fix alternate spellings analyses..
  • कि v/s की punjabi ki can also be kya.
  • Fix gender for adj - ਬਹੁਤੀ
  • Complete manual analysis of bidix entries for adjectives and adverbs.
  • Add more verbs.
  • Run testvoc on Adjectives and Adverbs.
  • aisa <noun> - ajiha BUT aisa <verb> innj.

Progress[edit]

Progress table[edit]

Week Stems Coverage WER,PER Progress
dates hin pan pan-hin hin pan pan-hin hin→pan pan→hin Evaluation Notes
1 May 1-24 - - - - 47% - - - - Original coverage - 12.8%
2 May 24-31 - +1400 - - 52% - 36.83%, 33.84% 40.03%, 36.93% - WER, PER On a set of 25 sentences(612 words)
3 June 1-7 - +500 +250 - 58% - 49.52%, 42.71% 48.65%, 44.03% - WER, PER On a set of 50 sentences(1038 words)
4 June 8-14 +50 +1500 +1000 - 63% - 41.36%, 35.82% 41.47%, 37.03% - WER, PER On a set of 50 sentences(1038 words)
5 June 15-21 - +50 +200 - 66% 52.8% 41.36%, 35.82% 41.47%, 37.03% - WER, PER On a set of 50 sentences(1038 words)
6 June 22-28 - +350 +700 - 70% 59% 39.76%, 34.22% 40.03%, 36.23% - WER, PER On a set of 50 sentences(1038 words)
7 June 29-Jul 6 - +350 +700 - 71.3% 61% 39.76%, 34.22% 40.03%, 36.23% - WER, PER On a set of 50 sentences(1038 words)
8 July 7-13 - +1200 +1600 - 73% 63% 39.76%, 34.22% 40.03%, 36.23% - WER, PER On a set of 50 sentences(1038 words)
9 July 14-20 - +2000 +2000 - 74% 65% 36.76%, 32.22% 39.03%, 33.53% - WER, PER On a set of 100 sentences(2140 words)
10 July 21-27 - +2500 +2200 - 75% 67% 33.76%, 29.62% 35.03%, 31.23% - WER, PER On a set of 100 sentences(2140 words)
11 July 28-Aug 2 - +1200 +1300 - 78% 70% 32.34%, 28.82% 34.45%, 30.43% - WER, PER On a set of 100 sentences(2140 words)

DONE[edit]

  • DONE - Bidix updates.
  • DONE - Fixed errors with postposition transfer.
  • DONE - Added proper nouns.
  • DONE - Added noun paradigms.
  • DONE - Added Adverbs.
  • DONE - Added about 1400 adjective stems
  • DONE - Function words(cnj, det, prn, post, gen_endings), Coverage > 47%
  • DONE - Collected parallel texts to calculate WER,PER etc..
  • DONE - Added bidirectional dictionary(33k paradigms)
  • DONE - Fixed bidirectional translation i.e. pan->hin(gave close to human translation for small test set, even though similar transfer rules were copied)
  • DONE - Scraped all Wikipedia texts and made a combined frequency list.
  • DONE - Frequency lists using WikiExtractor on latest dump.

IN PROGRESS[edit]

  • IN PROGRESS - Adding Verbs.
  • IN PROGRESS - Fix inconsistencies with parallel texts.
  • IN PROGRESS - Practicing basic understanding of Persian script.

TODO(Next week - Week 3)[edit]

  • Add verbs and nouns.

Literature(Apertium Wiki) Covered[edit]

  • DONE - Calculating Coverage.
  • DONE - A long introduction on Transfer Rules.
  • DONE - Transfer Rules examples
  • DONE - Wikipedia Dumps.
  • DONE - Generating Frequency lists.
  • DONE - Building Dictionaries#Monolingual.
  • DONE - Evaluation.
  • DONE - Extract.
  • DONE - Monodix Basics
  • DONE - Improved Corpus Based Paradigm Matching.
  • DONE - Transliteration.
  • DONE - Workflow reference.
  • DONE - Tagger Tranining.
  • DONE - Modes introduction.
  • DONE - Apertium-viewer.