Difference between revisions of "User talk:Francis Tyers/Experiments"

Latest revision as of 12:42, 21 September 2012

Finding c monolingually[edit]


default logp: -109095

# c                     LER  n°_rules app_rules  logp   default_LER
 
9999999999.0000019073	43.4	6	1	-109095	43.4
4999999999.5000009537	43.4	16	1	-109095	43.4
2499999999.7500004768	43.4	16	1	-109095	43.4
1249999999.8750002384	43.3	21	3	-109095	43.4
624999999.9375001192	43.3	29	3	-109095	43.4
312499999.9687500596	43.3	34	3	-109095	43.4
156249999.9843750298	43.3	38	3	-109095	43.4
78124999.9921875149	43.3	38	3	-109095	43.4
39062499.9960937575	43.3	46	3	-109095	43.4
19531249.9980468787	43.3	62	3	-109095	43.4
9765624.9990234394	43.3	64	3	-109095	43.4
4882812.4995117197	43.3	79	3	-109095	43.4
2441406.2497558598	43.3	89	3	-109095	43.4
1220703.1248779299	43.2	97	4	-109088	43.4
610351.5624389650	43.1	108	5	-109088	43.4
305175.7812194825	43.1	126	6	-109088	43.4
152587.8906097412	43.1	158	7	-109088	43.4
76293.9453048706	43.4	224	18	-109095	43.4
38146.9726524353	43.4	275	19	-109095	43.4
19073.4863262177	44.9	345	53	-109095	43.4
9536.7431631088		45.2	439	59	-109088	43.4
4768.3715815544		45.1	547	66	-109088	43.4
2384.1857907772		45.0	590	69	-109088	43.4
1192.0928953886		46.6	669	91	-109095	43.4
596.0464476943		46.7	761	94	-109102	43.4
298.0232238472		46.6	901	98	-109102	43.4
149.0116119236		46.4	1017	106	-109102	43.4
74.5058059618		47.9	1116	142	-109109	43.4
37.2529029809		48.2	1285	162	-109109	43.4
18.6264514904		47.9	1468	178	-109123	43.4
9.3132257452		50.5	1765	234	-108976	43.4
4.6566128726		51.6	2035	266	-108976	43.4
2.3283064363		52.6	2582	331	-108969	43.4
1.1641532182		55.6	3237	529	-108822	43.4

Trace[edit]

A "bad" rule[edit]


The final rule:

  <rule c="74 381: 0.9999999999" weight="9999999999.0000019073">
    <match lemma="kinnig" tags="vblex.*"><select lemma="présenter" tags="vblex.*"/></match>
    <match lemma="e" tags="pr"/>
  </rule>

From the n-gram file:

  # crispiness            weight       total_freq   default_freq max_freq     freq_of_max_tl  sl_word        tl_word
  + 9999999999.0000019073 0.9999999998 1.0000000001 0.0000000001 0.9999999999 0.9999999999    kinnig<vblex>  présenter<vblex>
  kinnig<vblex> e<pr>

From the language model:

 See example below in "good rule".

A bad application in the test file:

10433 ]	^un<det><ind><sp>/un<det><ind><GD><ND>$ ^diplom# skol-veur<n><m><sg>/diplôme universitaire<n><m><sg>$ ^micher<n><f><pl>/métier<n><m><pl>$ 
^e brezhoneg<adv>/en breton<adv>$ ^a<vpart>/@a<vpart>$ ^bezañ<vblex><prh><p3><sg><@+FMAINV>/être<vblex><prh><p3><sg><@+FMAINV>$ 
!!! ^kinnig<vblex><pp>/proposer<vblex><pp>$ ^e<pr>/en<pr>/dans<pr>$ !!! ^skourr<n><m><pl>/branche<n><f><pl>$ ^Gwengamp<np><top><sg>/Guingamp<np><loc>$ 
^ha<cnjcoo>/et<cnjcoo>$ ^Aradon<np><top><sg>/Arradon<np><loc>$ ^skol#-m#eur<n><f><sg>/université<n><f><sg>$ ^katolik<adj><mf><sp>/catholique<adj><mf><ND>$ 
^an<det><def><sp>/le<det><def><GD><ND>$ ^kornôg<n><m><sg>/ouest<n><m><sg>$ ^da skouer<adv>/par exemple<adv>$ ^.<sent>/.<sent>$ 

From the parallel corpus (e.g. the alignment is ok):

Un diplôme universitaire « métiers en langue bretonne » est, par exemple, proposé sur les antennes de Guingamp et d’Arradon de l’Université Catholique de l’Ouest.

A "good" rule[edit]


The final rule:

  <rule c="2 7: 0.9999999999" weight="9999999999.0000019073">
    <match lemma="diskouezadeg" tags="n.*"/>
    <match lemma="kinnig" tags="vblex.*"> <!-- default translation is "proposer" -->
      <select lemma="présenter" tags="vblex.*"/></match>
  </rule>

From the n-gram file:

  # crispiness            weight       total_freq   default_freq max_freq     freq_of_max_tl  sl_word        tl_word
  + 9999999999.0000019073 0.9999999998 1.0000000001 0.0000000001 0.9999999999 0.9999999999    kinnig<vblex>  présenter<vblex>         
  diskouezadeg<n> kinnig<vblex>   

The output of the language model on the source sentences translated into the TL:

0.0000000000	||	.[][6440 0].[]	 	Il écrivit la préface du catalogue de l'exposition offerte dans 1943 avec les *diskouezva *Pétridès , il eut du succès ..
0.0000000000	||	.[][6440 1].[]	 	Il écrivit la préface du catalogue de l'exposition déposée dans 1943 avec les *diskouezva *Pétridès , il eut du succès ..
0.0000000001	||	.[][6440 2].[]	 	Il écrivit la préface du catalogue de l'exposition offerte en 1943 avec les *diskouezva *Pétridès , il eut du succès ..
0.0000000000	||	.[][6440 3].[]	 	Il écrivit la préface du catalogue de l'exposition déposée en 1943 avec les *diskouezva *Pétridès , il eut du succès ..
0.0000000001	||	.[][6440 4].[]	 	Il écrivit la préface du catalogue de l'exposition proposée en 1943 avec les *diskouezva *Pétridès , il eut du succès ..
0.0000000342	||	.[][6440 5].[]	 	Il écrivit la préface du catalogue de l'exposition présentée dans 1943 avec les *diskouezva *Pétridès , il eut du succès ..
0.9999999657	|@|	.[][6440 6].[]	 	Il écrivit la préface du catalogue de l'exposition présentée en 1943 avec les *diskouezva *Pétridès , il eut du succès ..
0.0000000000	||	.[][6440 7].[]	 	Il écrivit la préface du catalogue de l'exposition proposée dans 1943 avec les *diskouezva *Pétridès , il eut du succès ..

-62.5979	||	.[][6440 0].[]	 	Il écrivit la préface du catalogue de l'exposition offerte dans 1943 avec les *diskouezva *Pétridès , il eut du succès ..
-61.5204	||	.[][6440 1].[]	 	Il écrivit la préface du catalogue de l'exposition déposée dans 1943 avec les *diskouezva *Pétridès , il eut du succès ..
-59.4907	||	.[][6440 2].[]	 	Il écrivit la préface du catalogue de l'exposition offerte en 1943 avec les *diskouezva *Pétridès , il eut du succès ..
-60.445	||	.[][6440 3].[]	 	Il écrivit la préface du catalogue de l'exposition déposée en 1943 avec les *diskouezva *Pétridès , il eut du succès ..
-59.5134	||	.[][6440 4].[]	 	Il écrivit la préface du catalogue de l'exposition proposée en 1943 avec les *diskouezva *Pétridès , il eut du succès ..
-56.6975	||	.[][6440 5].[]	 	Il écrivit la préface du catalogue de l'exposition présentée dans 1943 avec les *diskouezva *Pétridès , il eut du succès ..
-49.2317	|@|	.[][6440 6].[]	 	Il écrivit la préface du catalogue de l'exposition présentée en 1943 avec les *diskouezva *Pétridès , il eut du succès ..
-61.1621	||	.[][6440 7].[]	 	Il écrivit la préface du catalogue de l'exposition proposée dans 1943 avec les *diskouezva *Pétridès , il eut du succès ..

Translation from the parallel corpus:

Il préface le catalogue de l'exposition présentée en 1943 par la galerie Pétridès, qui remporte un succès triomphal.

Processing[edit]

Basque→Spanish[edit]

 2081  cat europako_testuak_memoria_2010.tmx | iconv -f utf-16 -t utf-8 > europako_testuak_memoria_2010.tmx.u8
 2082  cat 2010_memo_orokorra.tmx | iconv -f utf-16 -t utf-8 > 2010_memo_orokorra.tmx.u8
 2088  python3 process-tmx.py europako_testuak_memoria_2010.tmx.u8 > europako_testuak_memoria_2010.txt
 2090  python3 process-tmx.py 2010_memo_orokorra.tmx.u8 > 2010_memo_orokorra.txt
 2091  cat 2010_memo_orokorra.txt | grep '^es' | cut -f2- > 2010_memo_orokorra.es.txt
 2092  cat 2010_memo_orokorra.txt | grep '^eu' | cut -f2- > 2010_memo_orokorra.eu.txt
 2094  cat europako_testuak_memoria_2010.txt | grep '^es' | cut -f2- > europako_testuak_memoria_2010.es.txt
 2095  cat europako_testuak_memoria_2010.txt | grep '^eu' | cut -f2- > europako_testuak_memoria_2010.eu.txt
 2099  cat europako_testuak_memoria_2010.es.txt 2010_memo_orokorra.es.txt > opendata.es
 2100  cat europako_testuak_memoria_2010.eu.txt 2010_memo_orokorra.eu.txt > opendata.eu


$ wc -l opendata.e*
   782325 opendata.es
   782325 opendata.eu


 2114  perl /home/fran/local/bin/scripts-20120109-1229/training/clean-corpus-n.perl opendata eu es opendata.clean 1 40

 2117  cat opendata.clean.eu |apertium-destxt | apertium -f none -d ~/source/apertium-eu-es/ eu-es-pretransfer > opendata.tagged.eu
 2126  cat opendata.clean.es |apertium-destxt | apertium -f none -d ~/source/apertium-eu-es/ es-eu-pretransfer > opendata.tagged.es &


 2132  seq 1 771238 > opendata.lines
 2133  paste opendata.lines opendata.tagged.eu opendata.tagged.es | grep '<' | cut -f1 > opendata.lines.new
 2134  paste opendata.lines opendata.tagged.eu opendata.tagged.es | grep '<' | cut -f2 > opendata.tagged.eu.new
 2135  paste opendata.lines opendata.tagged.eu opendata.tagged.es | grep '<' | cut -f3 > opendata.tagged.es.new

 2137  mv opendata.lines.new opendata.lines
 2138  mv opendata.tagged.es.new opendata.tagged.es
 2139  mv opendata.tagged.eu.new opendata.tagged.eu

 2146  cat opendata.tagged.eu | lt-proc -b ~/source/apertium-eu-es/eu-es.autobil.bin  >/tmp/eu-es.bil1

 2148  cat opendata.tagged.eu | lt-proc -b ~/source/apertium-eu-es/eu-es.autobil-noRL.bin  >/tmp/eu-es.bil2

$ tail -n 1 /tmp/*.poly
==> /tmp/eu-es.bil1.poly <==
1.00240014637

==> /tmp/eu-es.bil2.poly <==
1.3015831681

 2191  mv /tmp/eu-es.bil2 opendata.biltrans.eu-es

 2258  cat opendata.tagged.es | python /home/fran/source/apertium-lex-tools/scripts/process-tagger-output.py es > opendata.token.es
 2007  cat opendata.tagged.eu |  python /home/fran/source/apertium-lex-tools/scripts/process-tagger-output.py eu > opendata.token.eu
 2014  cat opendata.biltrans.eu-es | python /home/fran/source/apertium-lex-tools/scripts/process-biltrans-output.py > opendata.token.eu-es &

$ nohup perl ~/local/bin/scripts-20120109-1229/training/train-model.perl -scripts-root-dir \
 /home/fran/local/bin/scripts-20120109-1229/ -root-dir . -corpus opendata.token -f eu -e es -alignment grow-diag-final-and \
 -reordering msd-bidirectional-fe  -lm 0:5:/home/fran/corpora/europarl/europarl.lm:0 >log 2>&1 &

 2011  paste opendata.lines opendata.token.eu opendata.token.es  | grep -v '\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*' | cut -f1 > opendata.lines.new&
 2013  paste opendata.lines opendata.token.eu opendata.token.es  | grep -v '\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*' | cut -f2 > opendata.eu.new &
 2014  paste opendata.lines opendata.token.eu opendata.token.es  | grep -v '\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*' | cut -f3 > opendata.es.new &


 2017  mv opendata.lines.new opendata.lines
 2018  mv opendata.es.new opendata.token.es
 2019  mv opendata.eu.new opendata.token.eu


 2032  paste opendata.lines opendata.token.eu opendata.token.es  | grep -v '<sent>.*<sent>.*<sent>.*<sent>.*<sent>.*<sent>' | cut -f1 > opendata.lines.new
 2033  paste opendata.lines opendata.token.eu opendata.token.es  | grep -v '<sent>.*<sent>.*<sent>.*<sent>.*<sent>.*<sent>' | cut -f2 > opendata.eu.new &
 2034  paste opendata.lines opendata.token.eu opendata.token.es  | grep -v '<sent>.*<sent>.*<sent>.*<sent>.*<sent>.*<sent>' | cut -f3 > opendata.es.new &
 2035  mv opendata.lines.new opendata.lines
 2036  mv opendata.es.new opendata.token.es
 2037  mv opendata.eu.new opendata.token.eu

 2055  cat opendata.token.es | sed 's/ *$//g' > opendata.token.es.new
 2056  cat opendata.token.eu | sed 's/ *$//g' > opendata.token.eu.new
 2057  mv opendata.token.es.new opendata.token.es
 2058  mv opendata.token.eu.new opendata.token.eu

English→Spanish[edit]


 2114  perl /home/fran/local/bin/scripts-20120109-1229/training/clean-corpus-n.perl europarl en es europarl.clean 1 40

 2056  cat europarl.clean.en | apertium-destxt | apertium -f none -d ~/source/apertium-en-es en-es-pretransfer > europarl.tagged.en &
 2057  cat europarl.clean.es | apertium-destxt | apertium -f none -d ~/source/apertium-en-es es-en-pretransfer > europarl.tagged.es &

 2073  paste europarl.lines europarl.tagged.en europarl.tagged.es | grep '<' | cut -f1 > europarl.lines.new
 2074  paste europarl.lines europarl.tagged.en europarl.tagged.es | grep '<' | cut -f2 > europarl.tagged.en.new
 2075  paste europarl.lines europarl.tagged.en europarl.tagged.es | grep '<' | cut -f3 > europarl.tagged.es.new

 2087  paste europarl.lines europarl.tagged.en europarl.tagged.es | grep -v '<sent>.*<sent>.*<sent>.*<sent>.*<sent>.*<sent>' | grep -v '\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*' | cut -f1 >europarl.lines.new
 2088  bg
 2089  paste europarl.lines europarl.tagged.en europarl.tagged.es | grep -v '<sent>.*<sent>.*<sent>.*<sent>.*<sent>.*<sent>' | grep -v '\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*' | cut -f2 >europarl.en.new&
 2090  paste europarl.lines europarl.tagged.en europarl.tagged.es | grep -v '<sent>.*<sent>.*<sent>.*<sent>.*<sent>.*<sent>' | grep -v '\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*.*\*' | cut -f3 >europarl.es.new&

 2097  nohup cat europarl.tagged.en | python ~/source/apertium-lex-tools/scripts/process-tagger-output.py en > europarl.token.en &
 2098  nohup cat europarl.tagged.es | python ~/source/apertium-lex-tools/scripts/process-tagger-output.py es > europarl.token.es &
 2099  nohup cat europarl.biltrans.en-es | python ~/source/apertium-lex-tools/scripts/process-biltrans-output.py > europarl.token.en-es &

Macedonian→English[edit]




:%s/еfу/еѓу/g
:%s/аfа/аѓа/g
:%s/оfа/оѓа/g
:%s/уfе/уѓе/g
:%s/нfи/нѓи/g
:%s/Ѓиниfиќ/Ѓинѓиќ/g
:%s/еfе/еѓе/g
:%s/уfм/уѓм/g
:%s/рfи/рѓи/g
:%s/ fе / ѓе /g
:%s/рfе/рѓе/g
:%s/уfи/уѓи/g
:%s/ fу/ ѓу/g
:%s/Караfорѓевиќ/Караѓорѓевиќ/g
:%s/Холанfанец/Холанѓанец/g
:%s/реfаваат/реѓаваат/g
:%s/Швеfанката/Швеѓанката/g
:%s/Новозеланfани/Новозеланѓани/g
:%s/Мрfан/Мрѓан/g
:%s/Анfелка/Анѓелка/g
:%s/рfосаната/рѓосаната/g
:%s/оттуfуваоето/оттуѓуваоето/g
:%s/Енfел/Енѓел/g
:%s/Караfорѓевиќ/Караѓорѓевиќ/g
:%s/маfународната/маѓународната/g
:%s/Пеfа/Пеѓа/g
:%s/маfепсник/маѓепсник/g
:%s/Караfорѓе/Караѓорѓе/g
:%s/Граfевинар/Граѓевинар/g
:%s/Меfаши/Меѓаши/g
:%s/Ванfел/Ванѓел/g
:%s/Караfиќ/Караѓиќ/g
:%s/Анfели/Анѓели/g
:%s/саfи/саѓи/g
:%s/маfионичарски/маѓионичарски/g
:%s/Караfорѓевиќ/Караѓорѓевиќ/g
:%s/панаfур/панаѓур/g
:%s/Ѓерf/Ѓерѓ/g
:%s/Ѓинѓиf/Ѓинѓиѓ/g


 2042  paste setimes.mk setimes.en| grep -v '^(' | cut -f1 > setimes.mk.new
 2043  paste setimes.mk setimes.en| grep -v '^(' | cut -f2 > setimes.en.new
 2044  paste setimes.en.new setimes.mk.new | grep -v '^(' | cut -f1 > setimes.en
 2045  paste setimes.en.new setimes.mk.new | grep -v '^(' | cut -f2 > setimes.mk

perl /home/fran/local/bin/scripts-20120109-1229/training/clean-corpus-n.perl setimes mk en setimes.clean 1 40 


 2052  cat setimes.clean.mk | apertium-destxt | apertium -f none -d ~/source/apertium-mk-en/ mk-en-pretransfer > setimes.tagged.mk&
 2054  cat setimes.clean.en | apertium-destxt | apertium -f none -d ~/source/apertium-mk-en/ en-mk-pretransfer > setimes.tagged.en&

 2063  seq 1 190503 > setimes.lines
 2064  paste setimes.lines setimes.tagged.mk setimes.tagged.en | grep '<' | cut -f1 > setimes.lines.new
 2065  paste setimes.lines setimes.tagged.mk setimes.tagged.en | grep '<' | cut -f2 > setimes.mk.new
 2066  paste setimes.lines setimes.tagged.mk setimes.tagged.en | grep '<' | cut -f3 > setimes.en.new
 2067  mv setimes.en.new setimes.tagged.en
 2068  mv setimes.mk.new setimes.tagged.mk
 2069  mv setimes.lines.new setimes.lines

 2077  nohup cat setimes.tagged.mk | lt-proc -b ~/source/apertium-mk-en/mk-en.autobil.bin > setimes.biltrans.mk-en &


 2122  cat setimes.tagged.mk |  python ~/source/apertium-lex-tools/scripts/process-tagger-output.py mk > setimes.token.mk &
 2123  cat setimes.tagged.en |  python ~/source/apertium-lex-tools/scripts/process-tagger-output.py en > setimes.token.en &

Difference between revisions of "User talk:Francis Tyers/Experiments"

Latest revision as of 12:42, 21 September 2012

Contents

Finding c monolingually[edit]

Trace[edit]

A "bad" rule[edit]

A "good" rule[edit]

Processing[edit]

Basque→Spanish[edit]

English→Spanish[edit]

Macedonian→English[edit]

Navigation menu

Personal tools

Namespaces

Variants

Views

More

Search

Navigation

Tools