User talk:Francis Tyers/Experiments
Jump to navigation
Jump to search
Contents
Finding c monolingually[edit]
default logp: -109095 # c LER n°_rules app_rules logp default_LER 9999999999.0000019073 43.4 6 1 -109095 43.4 4999999999.5000009537 43.4 16 1 -109095 43.4 2499999999.7500004768 43.4 16 1 -109095 43.4 1249999999.8750002384 43.3 21 3 -109095 43.4 624999999.9375001192 43.3 29 3 -109095 43.4 312499999.9687500596 43.3 34 3 -109095 43.4 156249999.9843750298 43.3 38 3 -109095 43.4 78124999.9921875149 43.3 38 3 -109095 43.4 39062499.9960937575 43.3 46 3 -109095 43.4 19531249.9980468787 43.3 62 3 -109095 43.4 9765624.9990234394 43.3 64 3 -109095 43.4 4882812.4995117197 43.3 79 3 -109095 43.4 2441406.2497558598 43.3 89 3 -109095 43.4 1220703.1248779299 43.2 97 4 -109088 43.4 610351.5624389650 43.1 108 5 -109088 43.4 305175.7812194825 43.1 126 6 -109088 43.4 152587.8906097412 43.1 158 7 -109088 43.4 76293.9453048706 43.4 224 18 -109095 43.4 38146.9726524353 43.4 275 19 -109095 43.4 19073.4863262177 44.9 345 53 -109095 43.4 9536.7431631088 45.2 439 59 -109088 43.4 4768.3715815544 45.1 547 66 -109088 43.4 2384.1857907772 45.0 590 69 -109088 43.4 1192.0928953886 46.6 669 91 -109095 43.4 596.0464476943 46.7 761 94 -109102 43.4 298.0232238472 46.6 901 98 -109102 43.4 149.0116119236 46.4 1017 106 -109102 43.4 74.5058059618 47.9 1116 142 -109109 43.4 37.2529029809 48.2 1285 162 -109109 43.4 18.6264514904 47.9 1468 178 -109123 43.4 9.3132257452 50.5 1765 234 -108976 43.4 4.6566128726 51.6 2035 266 -108976 43.4 2.3283064363 52.6 2582 331 -108969 43.4 1.1641532182 55.6 3237 529 -108822 43.4
Trace[edit]
A "bad" rule[edit]
The final rule: <rule c="74 381: 0.9999999999" weight="9999999999.0000019073"> <match lemma="kinnig" tags="vblex.*"><select lemma="présenter" tags="vblex.*"/></match> <match lemma="e" tags="pr"/> </rule> From the n-gram file: # crispiness weight total_freq default_freq max_freq freq_of_max_tl sl_word tl_word + 9999999999.0000019073 0.9999999998 1.0000000001 0.0000000001 0.9999999999 0.9999999999 kinnig<vblex> présenter<vblex> kinnig<vblex> e<pr> From the language model: See example below in "good rule". A bad application in the test file: 10433 ] ^un<det><ind><sp>/un<det><ind><GD><ND>$ ^diplom# skol-veur<n><m><sg>/diplôme universitaire<n><m><sg>$ ^micher<n><f><pl>/métier<n><m><pl>$ ^e brezhoneg<adv>/en breton<adv>$ ^a<vpart>/@a<vpart>$ ^bezañ<vblex><prh><p3><sg><@+FMAINV>/être<vblex><prh><p3><sg><@+FMAINV>$ !!! ^kinnig<vblex><pp>/proposer<vblex><pp>$ ^e<pr>/en<pr>/dans<pr>$ !!! ^skourr<n><m><pl>/branche<n><f><pl>$ ^Gwengamp<np><top><sg>/Guingamp<np><loc>$ ^ha<cnjcoo>/et<cnjcoo>$ ^Aradon<np><top><sg>/Arradon<np><loc>$ ^skol#-m#eur<n><f><sg>/université<n><f><sg>$ ^katolik<adj><mf><sp>/catholique<adj><mf><ND>$ ^an<det><def><sp>/le<det><def><GD><ND>$ ^kornôg<n><m><sg>/ouest<n><m><sg>$ ^da skouer<adv>/par exemple<adv>$ ^.<sent>/.<sent>$ From the parallel corpus (e.g. the alignment is ok): Un diplôme universitaire « métiers en langue bretonne » est, par exemple, proposé sur les antennes de Guingamp et d’Arradon de l’Université Catholique de l’Ouest.
A "good" rule[edit]
The final rule: <rule c="2 7: 0.9999999999" weight="9999999999.0000019073"> <match lemma="diskouezadeg" tags="n.*"/> <match lemma="kinnig" tags="vblex.*"> <!-- default translation is "proposer" --> <select lemma="présenter" tags="vblex.*"/></match> </rule> From the n-gram file: # crispiness weight total_freq default_freq max_freq freq_of_max_tl sl_word tl_word + 9999999999.0000019073 0.9999999998 1.0000000001 0.0000000001 0.9999999999 0.9999999999 kinnig<vblex> présenter<vblex> diskouezadeg<n> kinnig<vblex> The output of the language model on the source sentences translated into the TL: 0.0000000000 || .[][6440 0].[] Il écrivit la préface du catalogue de l'exposition offerte dans 1943 avec les *diskouezva *Pétridès , il eut du succès .. 0.0000000000 || .[][6440 1].[] Il écrivit la préface du catalogue de l'exposition déposée dans 1943 avec les *diskouezva *Pétridès , il eut du succès .. 0.0000000001 || .[][6440 2].[] Il écrivit la préface du catalogue de l'exposition offerte en 1943 avec les *diskouezva *Pétridès , il eut du succès .. 0.0000000000 || .[][6440 3].[] Il écrivit la préface du catalogue de l'exposition déposée en 1943 avec les *diskouezva *Pétridès , il eut du succès .. 0.0000000001 || .[][6440 4].[] Il écrivit la préface du catalogue de l'exposition proposée en 1943 avec les *diskouezva *Pétridès , il eut du succès .. 0.0000000342 || .[][6440 5].[] Il écrivit la préface du catalogue de l'exposition présentée dans 1943 avec les *diskouezva *Pétridès , il eut du succès .. 0.9999999657 |@| .[][6440 6].[] Il écrivit la préface du catalogue de l'exposition présentée en 1943 avec les *diskouezva *Pétridès , il eut du succès .. 0.0000000000 || .[][6440 7].[] Il écrivit la préface du catalogue de l'exposition proposée dans 1943 avec les *diskouezva *Pétridès , il eut du succès .. -62.5979 || .[][6440 0].[] Il écrivit la préface du catalogue de l'exposition offerte dans 1943 avec les *diskouezva *Pétridès , il eut du succès .. -61.5204 || .[][6440 1].[] Il écrivit la préface du catalogue de l'exposition déposée dans 1943 avec les *diskouezva *Pétridès , il eut du succès .. -59.4907 || .[][6440 2].[] Il écrivit la préface du catalogue de l'exposition offerte en 1943 avec les *diskouezva *Pétridès , il eut du succès .. -60.445 || .[][6440 3].[] Il écrivit la préface du catalogue de l'exposition déposée en 1943 avec les *diskouezva *Pétridès , il eut du succès .. -59.5134 || .[][6440 4].[] Il écrivit la préface du catalogue de l'exposition proposée en 1943 avec les *diskouezva *Pétridès , il eut du succès .. -56.6975 || .[][6440 5].[] Il écrivit la préface du catalogue de l'exposition présentée dans 1943 avec les *diskouezva *Pétridès , il eut du succès .. -49.2317 |@| .[][6440 6].[] Il écrivit la préface du catalogue de l'exposition présentée en 1943 avec les *diskouezva *Pétridès , il eut du succès .. -61.1621 || .[][6440 7].[] Il écrivit la préface du catalogue de l'exposition proposée dans 1943 avec les *diskouezva *Pétridès , il eut du succès .. Translation from the parallel corpus: Il préface le catalogue de l'exposition présentée en 1943 par la galerie Pétridès, qui remporte un succès triomphal.
Processing[edit]
Basque→Spanish[edit]
2081 cat europako_testuak_memoria_2010.tmx | iconv -f utf-16 -t utf-8 > europako_testuak_memoria_2010.tmx.u8 2082 cat 2010_memo_orokorra.tmx | iconv -f utf-16 -t utf-8 > 2010_memo_orokorra.tmx.u8 2088 python3 process-tmx.py europako_testuak_memoria_2010.tmx.u8 > europako_testuak_memoria_2010.txt 2090 python3 process-tmx.py 2010_memo_orokorra.tmx.u8 > 2010_memo_orokorra.txt 2091 cat 2010_memo_orokorra.txt | grep '^es' | cut -f2- > 2010_memo_orokorra.es.txt 2092 cat 2010_memo_orokorra.txt | grep '^eu' | cut -f2- > 2010_memo_orokorra.eu.txt 2094 cat europako_testuak_memoria_2010.txt | grep '^es' | cut -f2- > europako_testuak_memoria_2010.es.txt 2095 cat europako_testuak_memoria_2010.txt | grep '^eu' | cut -f2- > europako_testuak_memoria_2010.eu.txt 2099 cat europako_testuak_memoria_2010.es.txt 2010_memo_orokorra.es.txt > opendata.es 2100 cat europako_testuak_memoria_2010.eu.txt 2010_memo_orokorra.eu.txt > opendata.eu $ wc -l opendata.e* 782325 opendata.es 782325 opendata.eu 2114 perl /home/fran/local/bin/scripts-20120109-1229/training/clean-corpus-n.perl opendata eu es opendata.clean 1 40 2117 cat opendata.clean.eu |apertium-destxt | apertium -f none -d ~/source/apertium-eu-es/ eu-es-pretransfer > opendata.tagged.eu 2126 cat opendata.clean.es |apertium-destxt | apertium -f none -d ~/source/apertium-eu-es/ es-eu-pretransfer > opendata.tagged.es & 2132 seq 1 771238 > opendata.lines 2133 paste opendata.lines opendata.tagged.eu opendata.tagged.es | grep '<' | cut -f1 > opendata.lines.new 2134 paste opendata.lines opendata.tagged.eu opendata.tagged.es | grep '<' | cut -f2 > opendata.tagged.eu.new 2135 paste opendata.lines opendata.tagged.eu opendata.tagged.es | grep '<' | cut -f3 > opendata.tagged.es.new 2137 mv opendata.lines.new opendata.lines 2138 mv opendata.tagged.es.new opendata.tagged.es 2139 mv opendata.tagged.eu.new opendata.tagged.eu 2146 cat opendata.tagged.eu | lt-proc -b ~/source/apertium-eu-es/eu-es.autobil.bin >/tmp/eu-es.bil1 2148 cat opendata.tagged.eu | lt-proc -b ~/source/apertium-eu-es/eu-es.autobil-noRL.bin >/tmp/eu-es.bil2 $ tail -n 1 /tmp/*.poly ==> /tmp/eu-es.bil1.poly <== 1.00240014637 ==> /tmp/eu-es.bil2.poly <== 1.3015831681 2191 mv /tmp/eu-es.bil2 opendata.biltrans.eu-es 2258 cat opendata.tagged.es | python /home/fran/source/apertium-lex-tools/scripts/process-tagger-output.py es > opendata.token.es 2007 cat opendata.tagged.eu | python /home/fran/source/apertium-lex-tools/scripts/process-tagger-output.py eu > opendata.token.eu 2014 cat opendata.biltrans.eu-es | python /home/fran/source/apertium-lex-tools/scripts/process-biltrans-output.py > opendata.token.eu-es & $ nohup perl ~/local/bin/scripts-20120109-1229/training/train-model.perl -scripts-root-dir \ /home/fran/local/bin/scripts-20120109-1229/ -root-dir . -corpus opendata.token -f eu -e es -alignment grow-diag-final-and \ -reordering msd-bidirectional-fe -lm 0:5:/home/fran/corpora/europarl/europarl.lm:0 >log 2>&1 & 2011 paste opendata.lines opendata.token.eu opendata.token.es | grep -v '\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*' | cut -f1 > opendata.lines.new& 2013 paste opendata.lines opendata.token.eu opendata.token.es | grep -v '\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*' | cut -f2 > opendata.eu.new & 2014 paste opendata.lines opendata.token.eu opendata.token.es | grep -v '\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*' | cut -f3 > opendata.es.new & 2017 mv opendata.lines.new opendata.lines 2018 mv opendata.es.new opendata.token.es 2019 mv opendata.eu.new opendata.token.eu 2032 paste opendata.lines opendata.token.eu opendata.token.es | grep -v '<sent>.*<sent>.*<sent>.*<sent>.*<sent>.*<sent>' | cut -f1 > opendata.lines.new 2033 paste opendata.lines opendata.token.eu opendata.token.es | grep -v '<sent>.*<sent>.*<sent>.*<sent>.*<sent>.*<sent>' | cut -f2 > opendata.eu.new & 2034 paste opendata.lines opendata.token.eu opendata.token.es | grep -v '<sent>.*<sent>.*<sent>.*<sent>.*<sent>.*<sent>' | cut -f3 > opendata.es.new & 2035 mv opendata.lines.new opendata.lines 2036 mv opendata.es.new opendata.token.es 2037 mv opendata.eu.new opendata.token.eu 2055 cat opendata.token.es | sed 's/ *$//g' > opendata.token.es.new 2056 cat opendata.token.eu | sed 's/ *$//g' > opendata.token.eu.new 2057 mv opendata.token.es.new opendata.token.es 2058 mv opendata.token.eu.new opendata.token.eu
English→Spanish[edit]
2114 perl /home/fran/local/bin/scripts-20120109-1229/training/clean-corpus-n.perl europarl en es europarl.clean 1 40 2056 cat europarl.clean.en | apertium-destxt | apertium -f none -d ~/source/apertium-en-es en-es-pretransfer > europarl.tagged.en & 2057 cat europarl.clean.es | apertium-destxt | apertium -f none -d ~/source/apertium-en-es es-en-pretransfer > europarl.tagged.es & 2073 paste europarl.lines europarl.tagged.en europarl.tagged.es | grep '<' | cut -f1 > europarl.lines.new 2074 paste europarl.lines europarl.tagged.en europarl.tagged.es | grep '<' | cut -f2 > europarl.tagged.en.new 2075 paste europarl.lines europarl.tagged.en europarl.tagged.es | grep '<' | cut -f3 > europarl.tagged.es.new 2087 paste europarl.lines europarl.tagged.en europarl.tagged.es | grep -v '<sent>.*<sent>.*<sent>.*<sent>.*<sent>.*<sent>' | grep -v '\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*' | cut -f1 >europarl.lines.new 2088 bg 2089 paste europarl.lines europarl.tagged.en europarl.tagged.es | grep -v '<sent>.*<sent>.*<sent>.*<sent>.*<sent>.*<sent>' | grep -v '\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*' | cut -f2 >europarl.en.new& 2090 paste europarl.lines europarl.tagged.en europarl.tagged.es | grep -v '<sent>.*<sent>.*<sent>.*<sent>.*<sent>.*<sent>' | grep -v '\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*' | cut -f3 >europarl.es.new& 2097 nohup cat europarl.tagged.en | python ~/source/apertium-lex-tools/scripts/process-tagger-output.py en > europarl.token.en & 2098 nohup cat europarl.tagged.es | python ~/source/apertium-lex-tools/scripts/process-tagger-output.py es > europarl.token.es & 2099 nohup cat europarl.biltrans.en-es | python ~/source/apertium-lex-tools/scripts/process-biltrans-output.py > europarl.token.en-es &
Macedonian→English[edit]
:%s/еfу/еѓу/g :%s/аfа/аѓа/g :%s/оfа/оѓа/g :%s/уfе/уѓе/g :%s/нfи/нѓи/g :%s/Ѓиниfиќ/Ѓинѓиќ/g :%s/еfе/еѓе/g :%s/уfм/уѓм/g :%s/рfи/рѓи/g :%s/ fе / ѓе /g :%s/рfе/рѓе/g :%s/уfи/уѓи/g :%s/ fу/ ѓу/g :%s/Караfорѓевиќ/Караѓорѓевиќ/g :%s/Холанfанец/Холанѓанец/g :%s/реfаваат/реѓаваат/g :%s/Швеfанката/Швеѓанката/g :%s/Новозеланfани/Новозеланѓани/g :%s/Мрfан/Мрѓан/g :%s/Анfелка/Анѓелка/g :%s/рfосаната/рѓосаната/g :%s/оттуfуваоето/оттуѓуваоето/g :%s/Енfел/Енѓел/g :%s/Караfорѓевиќ/Караѓорѓевиќ/g :%s/маfународната/маѓународната/g :%s/Пеfа/Пеѓа/g :%s/маfепсник/маѓепсник/g :%s/Караfорѓе/Караѓорѓе/g :%s/Граfевинар/Граѓевинар/g :%s/Меfаши/Меѓаши/g :%s/Ванfел/Ванѓел/g :%s/Караfиќ/Караѓиќ/g :%s/Анfели/Анѓели/g :%s/саfи/саѓи/g :%s/маfионичарски/маѓионичарски/g :%s/Караfорѓевиќ/Караѓорѓевиќ/g :%s/панаfур/панаѓур/g :%s/Ѓерf/Ѓерѓ/g :%s/Ѓинѓиf/Ѓинѓиѓ/g 2042 paste setimes.mk setimes.en| grep -v '^(' | cut -f1 > setimes.mk.new 2043 paste setimes.mk setimes.en| grep -v '^(' | cut -f2 > setimes.en.new 2044 paste setimes.en.new setimes.mk.new | grep -v '^(' | cut -f1 > setimes.en 2045 paste setimes.en.new setimes.mk.new | grep -v '^(' | cut -f2 > setimes.mk perl /home/fran/local/bin/scripts-20120109-1229/training/clean-corpus-n.perl setimes mk en setimes.clean 1 40 2052 cat setimes.clean.mk | apertium-destxt | apertium -f none -d ~/source/apertium-mk-en/ mk-en-pretransfer > setimes.tagged.mk& 2054 cat setimes.clean.en | apertium-destxt | apertium -f none -d ~/source/apertium-mk-en/ en-mk-pretransfer > setimes.tagged.en& 2063 seq 1 190503 > setimes.lines 2064 paste setimes.lines setimes.tagged.mk setimes.tagged.en | grep '<' | cut -f1 > setimes.lines.new 2065 paste setimes.lines setimes.tagged.mk setimes.tagged.en | grep '<' | cut -f2 > setimes.mk.new 2066 paste setimes.lines setimes.tagged.mk setimes.tagged.en | grep '<' | cut -f3 > setimes.en.new 2067 mv setimes.en.new setimes.tagged.en 2068 mv setimes.mk.new setimes.tagged.mk 2069 mv setimes.lines.new setimes.lines 2077 nohup cat setimes.tagged.mk | lt-proc -b ~/source/apertium-mk-en/mk-en.autobil.bin > setimes.biltrans.mk-en & 2122 cat setimes.tagged.mk | python ~/source/apertium-lex-tools/scripts/process-tagger-output.py mk > setimes.token.mk & 2123 cat setimes.tagged.en | python ~/source/apertium-lex-tools/scripts/process-tagger-output.py en > setimes.token.en &