Difference between revisions of "User:Pmodi/GSOC 2020 proposal: Hindi-Punjabi/progress"

From Apertium
Jump to navigation Jump to search
(17 intermediate revisions by the same user not shown)
Line 1: Line 1:
==Current tasks(Week 4)==
+
==Current tasks(Week 8)==
  +
* Number of subject-object matters for pronouns : ਮੇਰੀਆਂ | ਸਾਡੀ. मेरे(marked mf) | मेरा(marked m)
 
* Fix सब__prn for खुद
 
* Fix सब__prn for खुद
 
* Fix determiners in Hindi (Add काफी to determiners)
 
* Fix determiners in Hindi (Add काफी to determiners)
  +
* Add post-positions to definitions - ਹਸਪਤਾਲੋਂ = ਹਸਪਤਾਲ ਤੋਂ.
  +
* What is the analysis for ਦੋਸਤੋਂ.
  +
* ਮੈਂ is the translation for मैंने and मैं. Add transfer rule and check if tagger correctly identifies which one is being picked.
  +
* Fix alternate spellings analyses..
  +
* कि v/s की punjabi ki can also be kya.
  +
* Fix gender for adj - ਬਹੁਤੀ
 
* Complete manual analysis of bidix entries for adjectives and adverbs.
 
* Complete manual analysis of bidix entries for adjectives and adverbs.
 
* Add more verbs.
 
* Add more verbs.
 
* Run testvoc on Adjectives and Adverbs.
 
* Run testvoc on Adjectives and Adverbs.
   
  +
* aisa <noun> - ajiha BUT aisa <verb> innj.
<pre>
 
बापू जी उन दिनों की बात सुनाते थे
 
जाटों के बेटों के पास सिर्फ दो ही रास्ते हुआ करते ... फ़ौज या फेर खेती ..!
 
निक्का चाचा जी फ़ौज में थे ... पैंसठ की जंग के दौरान एक बार गाँव आया .. वो भी अचानक ... घडी की घडी मिलकर वापस मुड़ने लगा .. बॉर्डर की ओर इशारा करके कहने लगा कि जंग अभी जारी है ... ख़तम होती है तो आऊंगा ... पर वह कभी नहीं आया !
 
 
आज पूरे पांच दिनों बाद निक्के का हस्पताल से फोन आया ..
 
कहने लगा घडी की घडी आऊंगा ... मैंने उसकी मनपसंद खीर बनायी ..
 
छोटा पोता सुबह उठते ही खिड़की के साथ लग के बाप का इंतज़ार कर रहा था ..
 
बहु अजीब सी कश्मकश में थी .. कभी होती तो कभी उदास .. कभी अपने आप से बातें ..! पर वह आज भी सही समें से न आया .. फोन भी बंद .. हमने आस छोड़ दी .. फिर अचानक आवाज़ हुई .. बाहर का गेट खड़का .. वह भाग के बाहर को गयी .. गेट के बाहर बैंच पर बैठे ने उसको वहाँ ही रोक दिया .. फिर हसता हुआ दूर से ही कितनी देर बातों में लगा रहा ..!
 
पूछा अंदर नहीं आना ..!
 
कहने लगा नहीं बस यहीं से ही मुड़ जाना ..
 
फिर बाहर बैठे ने ही दो चम्मच खीर के खाये .. राजमा चावल का स्वाद चखा ..!
 
बेटे को फ्लाइंग किस करी .. बहु की ओर नज़र भर देखा और फिर सफ़ेद कोट पाए हस्पताल की ओर इशारा करता हुआ इतनी बात कहकर चलता बना कि जंग अगर जारी है .. ख़तम होती है तो आऊंगा .."
 
दोस्तों कोण कहता है कि जंग सिर्फ बॉर्डरों पर ही लड़ी जाती है ..
 
कुछ जंगें अपने आप से भी होती हैं .. अपने जज़्बातों से .. पर इन जंगों में होते धमाके सिर्फ अपने आप को ही सुनाई देते हैं ..!
 
 
----------------------------------------------------------------------------------------------
 
 
ਬਾਪੂ ਜੀ ਓਹਨਾ ਵੇਲਿਆਂ ਦੀ ਗੱਲ ਸੁਣਾਇਆ ਕਰਦੇ ..
 
ਜੱਟਾਂ ਦੇ ਪੁੱਤਾਂ ਕੋਲ ਸਿਰਫ ਦੋ ਹੀ ਰਾਹ ਹੋਇਆ ਕਰਦੇ .. ਫੌਜ ਤੇ ਜਾ ਫੇਰ ਵਾਹੀ ..!
 
ਨਿੱਕਾ ਚਾਚਾ ਜੀ ਫੌਜ ਵਿਚ ਸੀ .. ਪੈਂਠ ਦੀ ਜੰਗ ਵੇਲੇ ਇੱਕ ਵਾਰ ਪਿੰਡ ਆਇਆ .. ਉਹ ਵੀ ਅਚਾਨਕ .. ਘੜੀ ਦੀ ਘੜੀ ਮਿਲ ਵਾਪਿਸ ਮੁੜਨ ਲੱਗਾ .. ਬਾਡਰ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰ ਆਖਣ ਲੱਗਾ ਜੰਗ ਅਜੇ ਜਾਰੀ ਏ .. ਮੁੱਕਦੀ ਏ ਤਾਂ ਆਵਾਂਗਾ .. ਪਰ ਉਹ ਕਦੀ ਨਹੀਂ ਆਇਆ!
 
 
ਅੱਜ ਪੂਰੇ ਪੰਜ ਦਿਨਾਂ ਮਗਰੋਂ ਨਿੱਕੇ ਦਾ ਹਸਪਤਾਲੋਂ ਫੋਨ ਆਇਆ ..
 
ਆਖਣ ਲੱਗਾ ਘੜੀ ਦੀ ਘੜੀ ਆਵਾਂਗਾ .. ਮੈਂ ਉਸਦੀ ਮਨਪਸੰਦ ਖੀਰ ਬਣਾਈ ..
 
ਨਿੱਕਾ ਪੋਤਰਾ ਸਵਖਤੇ ਦਾ ਉੱਠ ਬਾਰੀ ਨਾਲ ਲੱਗ ਪਿਓ ਦਾ ਇੰਤਜਾਰ ਕਰ ਰਿਹਾ ਸੀ ..
 
ਨੂੰਹ ਅਜੀਬ ਜਿਹੀ ਕਸ਼ਮਕਸ਼ ਵਿਚ ਸੀ .. ਕਦੀ ਖੁਸ਼ ਹੁੰਦੀ ਤੇ ਕਦੀ ਉਦਾਸ .. ਕਦੀ ਆਪਣੇ ਆਪ ਨਾਲ ਗੱਲਾਂ ..! ਪਰ ਉਹ ਅੱਜ ਵੀ ਮਿੱਥੇ ਸਮੇਂ ਤੇ ਨਾ ਆਇਆ .. ਫੋਨ ਵੀ ਬੰਦ .. ਅਸੀ ਆਸ ਲਾਹ ਦਿੱਤੀ .. ਫੇਰ ਅਚਾਨਕ ਬਿੜਕ ਹੋਈ .. ਬਾਹਰਲਾ ਗੇਟ ਖੜਕਿਆ .. ਉਹ ਭੱਜ ਕੇ ਬਾਹਰ ਨੂੰ ਗਈ .. ਗੇਟੋਂ ਬਾਹਰ ਬੇਂਚ ਤੇ ਬੈਠੇ ਨੇ ਉਸਨੂੰ ਓਥੇ ਹੀ ਰੋਕ ਦਿੱਤਾ .. ਫੇਰ ਹੱਸਦਾ ਹੋਇਆ ਦੂਰੋਂ ਹੀ ਕਿੰਨਾ ਚਿਰ ਗੱਲੀ ਲੱਗਾ ਰਿਹਾ ..
 
ਪੁੱਛਿਆ ਅੰਦਰ ਨਹੀਂ ਆਉਣਾ ..!
 
ਕਹਿੰਦਾ ਨਹੀਂ ਬੱਸ ਇਥੋਂ ਹੀ ਮੁੜ ਜਾਣਾ ..
 
ਫੇਰ ਬਾਹਰ ਬੈਠੇ ਨੇ ਹੀ ਦੋ ਕੂ ਚਮਚੇ ਖੀਰ ਦੇ ਖਾਦੇ .. ਰਾਜਮਾਂਹ ਚੌਲਾਂ ਦਾ ਸਵਾਦ ਚੱਖਿਆ ..!
 
ਪੁੱਤ ਨੂੰ ਫਲਾਇੰਗ ਕਿੱਸ ਕੀਤੀ .. ਨਾਲਦੀ ਵੱਲ ਨਜਰ ਭਰ ਵੇਖਿਆ ਤੇ ਫੇਰ ਚਿੱਟਾ ਕੋਟ ਪਾਈ ਹਸਪਤਾਲ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦਾ ਹੋਇਆ ਇੰਨੀ ਗੱਲ ਆਖ ਤੁਰਦਾ ਬਣਿਆ ਕੇ ਜੰਗ ਜੇ ਜਾਰੀ ਹੈ .. ਮੁੱਕੀ ਤਾਂ ਫੇਰ ਆਵਾਂਗਾ ..” ਦੋਸਤੋ ਕੌਣ ਆਖਦਾ ਕੇ ਜੰਗ ਸਿਰਫ ਬਾਡਰਾਂ ਤੇ ਹੀ ਲੜੀ ਜਾਂਦੀ ਏ ..
 
ਕੁਝ ਜੰਗਾਂ ਆਪਣੇ ਆਪ ਨਾਲ ਵੀ ਹੁੰਦੀਆਂ .. ਆਪਣੇ ਜਜਬਾਤਾਂ ਨਾਲ .. ਪਰ ਇਹਨਾਂ ਜੰਗਾਂ ਵਿਚ ਹੁੰਦੇ ਧਮਾਕੇ ਸਿਰਫ ਆਪਣੇ ਆਪ ਨੂੰ ਹੀ ਸੁਣਾਈ ਦਿੰਦੇ ਨੇ ..!
 
</pre>
 
   
 
== Progress ==
 
== Progress ==
Line 54: Line 30:
 
! hin
 
! hin
 
! pan
 
! pan
! hin-pan
+
! pan-hin
 
! hin
 
! hin
 
! pan
 
! pan
! hin-pan
+
! pan-hin
 
! hin→pan
 
! hin→pan
 
! pan→hin
 
! pan→hin
Line 133: Line 109:
 
! -
 
! -
 
! WER, PER On a set of 50 sentences(1038 words)
 
! WER, PER On a set of 50 sentences(1038 words)
  +
|-
  +
  +
! 6
  +
! June 22-28
  +
! -
  +
! +350
  +
! +700
  +
! -
  +
! 70%
  +
! 59%
  +
! 39.76%, 34.22%
  +
! 40.03%, 36.23%
  +
! -
  +
! WER, PER On a set of 50 sentences(1038 words)
  +
|-
  +
  +
! 7
  +
! June 29-Jul 6
  +
! -
  +
! +350
  +
! +700
  +
! -
  +
! 71.3%
  +
! 61%
  +
! 39.76%, 34.22%
  +
! 40.03%, 36.23%
  +
! -
  +
! WER, PER On a set of 50 sentences(1038 words)
  +
|-
  +
  +
! 8
  +
! July 7-13
  +
! -
  +
! +1200
  +
! +1600
  +
! -
  +
! 73%
  +
! 63%
  +
! 39.76%, 34.22%
  +
! 40.03%, 36.23%
  +
! -
  +
! WER, PER On a set of 50 sentences(1038 words)
  +
|-
  +
  +
! 9
  +
! July 14-20
  +
! -
  +
! +2000
  +
! +2000
  +
! -
  +
! 74%
  +
! 65%
  +
! 36.76%, 32.22%
  +
! 39.03%, 33.53%
  +
! -
  +
! WER, PER On a set of 100 sentences(2140 words)
  +
|-
  +
  +
! 10
  +
! July 21-27
  +
! -
  +
! +2500
  +
! +2200
  +
! -
  +
! 75%
  +
! 67%
  +
! 33.76%, 29.62%
  +
! 35.03%, 31.23%
  +
! -
  +
! WER, PER On a set of 100 sentences(2140 words)
  +
|-
  +
  +
! 11
  +
! July 28-Aug 2
  +
! -
  +
! +1200
  +
! +1300
  +
! -
  +
! 78%
  +
! 70%
  +
! 32.34%, 28.82%
  +
! 34.45%, 30.43%
  +
! -
  +
! WER, PER On a set of 100 sentences(2140 words)
 
|}
 
|}
   

Revision as of 12:28, 10 August 2020

Current tasks(Week 8)

  • Number of subject-object matters for pronouns : ਮੇਰੀਆਂ | ਸਾਡੀ. मेरे(marked mf) | मेरा(marked m)
  • Fix सब__prn for खुद
  • Fix determiners in Hindi (Add काफी to determiners)
  • Add post-positions to definitions - ਹਸਪਤਾਲੋਂ = ਹਸਪਤਾਲ ਤੋਂ.
  • What is the analysis for ਦੋਸਤੋਂ.
  • ਮੈਂ is the translation for मैंने and मैं. Add transfer rule and check if tagger correctly identifies which one is being picked.
  • Fix alternate spellings analyses..
  • कि v/s की punjabi ki can also be kya.
  • Fix gender for adj - ਬਹੁਤੀ
  • Complete manual analysis of bidix entries for adjectives and adverbs.
  • Add more verbs.
  • Run testvoc on Adjectives and Adverbs.
  • aisa <noun> - ajiha BUT aisa <verb> innj.

Progress

Progress table

Week Stems Coverage WER,PER Progress
dates hin pan pan-hin hin pan pan-hin hin→pan pan→hin Evaluation Notes
1 May 1-24 - - - - 47% - - - - Original coverage - 12.8%
2 May 24-31 - +1400 - - 52% - 36.83%, 33.84% 40.03%, 36.93% - WER, PER On a set of 25 sentences(612 words)
3 June 1-7 - +500 +250 - 58% - 49.52%, 42.71% 48.65%, 44.03% - WER, PER On a set of 50 sentences(1038 words)
4 June 8-14 +50 +1500 +1000 - 63% - 41.36%, 35.82% 41.47%, 37.03% - WER, PER On a set of 50 sentences(1038 words)
5 June 15-21 - +50 +200 - 66% 52.8% 41.36%, 35.82% 41.47%, 37.03% - WER, PER On a set of 50 sentences(1038 words)
6 June 22-28 - +350 +700 - 70% 59% 39.76%, 34.22% 40.03%, 36.23% - WER, PER On a set of 50 sentences(1038 words)
7 June 29-Jul 6 - +350 +700 - 71.3% 61% 39.76%, 34.22% 40.03%, 36.23% - WER, PER On a set of 50 sentences(1038 words)
8 July 7-13 - +1200 +1600 - 73% 63% 39.76%, 34.22% 40.03%, 36.23% - WER, PER On a set of 50 sentences(1038 words)
9 July 14-20 - +2000 +2000 - 74% 65% 36.76%, 32.22% 39.03%, 33.53% - WER, PER On a set of 100 sentences(2140 words)
10 July 21-27 - +2500 +2200 - 75% 67% 33.76%, 29.62% 35.03%, 31.23% - WER, PER On a set of 100 sentences(2140 words)
11 July 28-Aug 2 - +1200 +1300 - 78% 70% 32.34%, 28.82% 34.45%, 30.43% - WER, PER On a set of 100 sentences(2140 words)

DONE

  • DONE - Bidix updates.
  • DONE - Fixed errors with postposition transfer.
  • DONE - Added proper nouns.
  • DONE - Added noun paradigms.
  • DONE - Added Adverbs.
  • DONE - Added about 1400 adjective stems
  • DONE - Function words(cnj, det, prn, post, gen_endings), Coverage > 47%
  • DONE - Collected parallel texts to calculate WER,PER etc..
  • DONE - Added bidirectional dictionary(33k paradigms)
  • DONE - Fixed bidirectional translation i.e. pan->hin(gave close to human translation for small test set, even though similar transfer rules were copied)
  • DONE - Scraped all Wikipedia texts and made a combined frequency list.
  • DONE - Frequency lists using WikiExtractor on latest dump.

IN PROGRESS

  • IN PROGRESS - Adding Verbs.
  • IN PROGRESS - Fix inconsistencies with parallel texts.
  • IN PROGRESS - Practicing basic understanding of Persian script.

TODO(Next week - Week 3)

  • Add verbs and nouns.

Literature(Apertium Wiki) Covered

  • DONE - Calculating Coverage.
  • DONE - A long introduction on Transfer Rules.
  • DONE - Transfer Rules examples
  • DONE - Wikipedia Dumps.
  • DONE - Generating Frequency lists.
  • DONE - Building Dictionaries#Monolingual.
  • DONE - Evaluation.
  • DONE - Extract.
  • DONE - Monodix Basics
  • DONE - Improved Corpus Based Paradigm Matching.
  • DONE - Transliteration.
  • DONE - Workflow reference.
  • DONE - Tagger Tranining.
  • DONE - Modes introduction.
  • DONE - Apertium-viewer.