Difference between revisions of "English and Esperanto/Evaluation"
Jump to navigation
Jump to search
Line 61: | Line 61: | ||
==Russian Empire== |
==Russian Empire== |
||
<pre> |
|||
$ cd dev |
|||
$ apertium-eval-translator -test eval-RussianEmpire.apertium.txt -ref eval-RussianEmpire.post-edited.txt |
|||
</pre> |
|||
Date: 08 May 2009<br /> |
Date: 08 May 2009<br /> |
||
Line 146: | Line 150: | ||
Haff en la suda Balto, kaj de tie al la buŝo de Danubo. De Danubo, ĝi prenis grandan rondan balaon |
Haff en la suda Balto, kaj de tie al la buŝo de Danubo. De Danubo, ĝi prenis grandan rondan balaon |
||
okcidenten por ampleksi Pollandon, kaj apartiganta Rusio de Prusio, Aŭstra Galegio kaj Rumanio. |
okcidenten por ampleksi Pollandon, kaj apartiganta Rusio de Prusio, Aŭstra Galegio kaj Rumanio. |
||
</pre> |
|||
== Corpus coverage == |
|||
=== Detailed data on corpus from Wikipedia === |
|||
<pre> |
|||
$ zcat corpa/en.crp.txt.gz | sh corpus-stat.sh |
|||
Number of tokenised words in the corpus: 478187 |
|||
Number of known words in the corpus: 450255 |
|||
Coverage: 94.2 % |
|||
Top unknown words in the corpus: |
|||
191 ^Apollo/*Apollo$ |
|||
104 ^Aramaic/*Aramaic$ |
|||
91 ^Alberta/*Alberta$ |
|||
81 ^de/*de$ |
|||
80 ^Abu/*Abu$ |
|||
63 ^Bakr/*Bakr$ |
|||
62 ^Agassi/*Agassi$ |
|||
59 ^Carnegie/*Carnegie$ |
|||
58 ^Agrippina/*Agrippina$ |
|||
58 ^Achilles/*Achilles$ |
|||
</pre> |
|||
=== Detailed data on corpus from Reuter's === |
|||
<pre> |
|||
$ zcat corpa/en.crp.txt.gz_org_reuters | sh corpus-stat.sh |
|||
Number of tokenised words in the corpus: 1091016 |
|||
Number of known words in the corpus: 988758 |
|||
Coverage: 90.6 % |
|||
Top unknown words in the corpus: |
|||
8952 ^mln/*mln$ |
|||
7140 ^dlrs/*dlrs$ |
|||
6045 ^pct/*pct$ |
|||
4936 ^Reuter/*Reuter$ |
|||
3357 ^cts/*cts$ |
|||
2292 ^Inc/*Inc$ |
|||
2035 ^Corp/*Corp$ |
|||
1366 ^REUTER/*REUTER$ |
|||
1320 ^Co/*Co$ |
|||
926 ^dlr/*dlr$ |
|||
</pre> |
|||
=== Detailed data on another corpus (don't remember from where) === |
|||
<pre> |
|||
$ zcat corpa/en.crp.txt.gz_2 | sh corpus-stat.sh |
|||
Number of tokenised words in the corpus: 496715 |
|||
Number of known words in the corpus: 474858 |
|||
Coverage: 95.6 % |
|||
Top unknown words in the corpus: |
|||
261 ^Corp/*Corp$ |
|||
242 ^Inc/*Inc$ |
|||
155 ^Co/*Co$ |
|||
106 ^anti/*anti$ |
|||
102 ^ve/*ve$ |
|||
98 ^Iraq/*Iraq$ |
|||
97 ^Chicago/*Chicago$ |
|||
83 ^Iran/*Iran$ |
|||
81 ^San/*San$ |
|||
74 ^de/*de$ |
|||
</pre> |
</pre> |
Revision as of 22:39, 7 May 2009
Archimedes
Date: 08 May 2009
Word error rate (WER): 15.79 %
Position-independent word error rate (PER): 15.79 %
- English
Archimedes of Syracuse was an ancient Greek mathematician, physicist and engineer. Although little is known of his life, he is regarded as one of the leading scientists in classical antiquity. In addition to making discoveries in the fields of mathematics and geometry, he is credited with producing machines that were well ahead of their time. He laid the foundations of hydrostatics, and explained the principle of the lever, the device on which mechanics is based. His early advances in calculus included the first known summation of an infinite series with a method that is still used today. The historians of Ancient Rome showed a strong interest in Archimedes and wrote accounts of his life and works, while the relatively few copies of his treatises that survived through the Middle Ages were an influential source of ideas for scientists during the Renaissance.
- Apertium
*Archimedes de *Syracuse estis antikva greka matematikisto, fizikisto kaj inĝeniero. Kvankam malmulte estas sciita de lia vivo, li estas rigardita kiel unu el la eminentaj sciencistoj en klasika antikveco. Krom faranta eltrovoj en la kampoj de matematiko kaj geometrio, li estas kreditita kun produktanta maŝinoj kiu estis bone antaŭen de ilia tempo. Li metis la fundamentojn de *hydrostatics, kaj klarigis la principo de la levilo, la aparato sur kiu mekanikoj estas bazita. Liaj fruaj antaŭenigoj en kalkulado inkluzivis la unua sciata *summation de senlima serio kun metodo kiu estas ankoraŭ uzita hodiaŭ. La historiistoj de Antikva Romo montris fortan intereson en *Archimedes kaj skribis kontoj de lia vivo kaj laboroj, dum la relative malabundaj kopioj de liaj traktatoj kiu supervivis tra la mezepoko estis influa fonto de ideoj por sciencistoj dum la Renesanco.
- Post-editted
Archimedes de Syracuse estis antikva greka matematikisto, fizikisto kaj inĝeniero. Kvankam malmulte estas sciata pri lia vivo, li estas konsiderata unu el la unuarangaj sciencistoj en klasika antikveco. Krom fari eltrovojn en la kampoj de matematiko kaj geometrio, li estas atribuita al produkti maŝinojn kiu estis bone antaŭ de ilia tempo. Li metis la fundamentojn de hidrostatiko, kaj klarigis la principon de la levilo, la aparato sur kiu mekaniko estas bazita. Liaj fruaj antaŭenigoj en kalkulado inkluzivis la unua sciata *sumigo de senlima serio kun metodo kiu estas ankoraŭ uzata hodiaŭ. La historiistoj de Antikva Romo montris fortan intereson en Archimedes kaj skribis rakontojn pri lia vivo kaj laboroj, dum la relative maloftaj kopioj de liaj pritraktoj kiu supervivis tra la mezepoko estis influa fonto de ideoj por sciencistoj dum la Renesanco.
Russian Empire
$ cd dev $ apertium-eval-translator -test eval-RussianEmpire.apertium.txt -ref eval-RussianEmpire.post-edited.txt
Date: 08 May 2009
Word error rate (WER): 25.92 %
Position-independent word error rate (PER): 21.99 %
- English
The Russian Empire (Modern Russian: Российская империя, translit: Rossiyskaya Imperiya) was a state that existed from 1721 until the Russian Revolution of 1917. It was the successor to the Tsardom of Russia, and the predecessor of the Soviet Union. It was one of the largest empires the world had seen. At one point in 1866, it stretched from eastern Europe, across northern Asia, and into North America. At the beginning of the 19th century, Russia was the largest country in the world, extending from the Arctic Ocean to the north to the Black Sea on the south, from the Baltic Sea on the west to the Pacific Ocean on the east. Across this vast realm were scattered the Tsar's 150 million subjects, from poor, illiterate peasants to the noble families of great wealth. Its government, ruled by the Tsar, was one of the last absolute monarchies left in Europe. The Russian Empire was a natural successor to the Tsardom of Muscovy. Though the empire was only officially proclaimed by Tsar Peter I following the Treaty of Nystad (1721), some historians would argue that it was truly born when Peter acceeded to the throne in early 1682. The administrative boundaries of European Russia, apart from Finland, coincided broadly with the natural limits of the East-European plains. In the North it met the Arctic Ocean; the islands of Novaya Zemlya, Kolguyev and Vaigach also belonged to it, but the Kara Sea was reckoned to Siberia. To the East it had the Asiatic dominions of the empire, Siberia and the Kyrgyz steppes, from both of which it was separated by the Ural Mountains, the Ural River and the Caspian Sea — the administrative boundary, however, partly extending into Asia on the Siberian slope of the Urals. To the South it had the Black Sea and Caucasus, being separated from the latter by the Manych depression, which in Post-Pliocene times connected the Sea of Azov with the Caspian. The West boundary was purely conventional: it crossed the peninsula of Kola from the Varangerfjord to the Gulf of Bothnia; thence it ran to the Kurisches Haff in the southern Baltic, and thence to the mouth of the Danube. From the Danube, it took a great circular sweep to the West to embrace Poland, and separating Russia from Prussia, Austrian Galicia and Romania.
- Apertium
La rusa Imperio (Moderna ruso: Российская империя, *translit: *Rossiyskaya *Imperiya) estis stato kiu ekzistis de 1721 ĝis la rusa Revolucio de 1917. Ĝi estis la posteulo al la *Tsardom de Rusio, kaj la antaŭulo de la Sovetio. Ĝi estis unu el la plej grandaj imperioj la mondo vidis. Ĉe unu punkto en 1866, ĝi streĉis de orienta Eŭropo, trans norda Azio, kaj en Norda Ameriko. Ĉe la komenco de la 19a jarcento, Rusio estis la plej granda lando en la mondo, etendanta de la Arkta Oceano al la norda al la Nigra Maro sur la sudo, de la Balta Maro sur la okcidenta al la Pacifika Oceano sur la oriento. Trans ĉi tiu vasta sfero estis disigita la Caro-a 150 milionaj temoj, de senhavulo, nelegosciaj kamparanoj al la noblaj familioj de granda riĉeco. Ĝia registaro, regita de la Caro, estis unu el la lastaj absolutaj monarkioj lasita en Eŭropo. La rusa Imperio estis natura posteulo al la *Tsardom de *Muscovy. Kvankam la imperio estis nur oficiale proklamita de Caro Peter I sekvanta la Traktaton de *Nystad (1721), kelkaj historiistoj argumentus ke ĝi estis vere portita kiam Peter *acceeded al la trono en frua 1682. La administraciaj limoj de eŭropa Rusio, krom Finnlando, koincidis larĝe kun la naturaj limoj de la Orienta-eŭropaj ebenaĵoj. En la Nordo ĝi renkontis la Arktan Oceanon; la insuloj de *Novaya *Zemlya, *Kolguyev kaj *Vaigach ankaŭ apartenita al ĝi, sed la Kara Maro estis kalkulita al *Siberia. Al la Oriento ĝi havis la *Asiatic superregoj de la imperio, *Siberia kaj la kirgizaj stepoj, de ambaŭ de kiu ĝi estis apartigita de la *Ural Montoj, la *Ural Rivero kaj la Kaspia Maro — la administracia limo, tamen, parte etendanta en Azio sur la *Siberian deklivo de la Uraloj. Al la Sudo ĝi havis la Nigran Maron kaj Kaŭkazion, estanta apartigita de la lasta de la *Manych melankolio, kiu en Poŝto-*Pliocene tempoj konektis la Maron de *Azov kun la Kaspio. La Okcidenta limo estis sole tradicia: ĝi transiris la duoninsulon de *Kola de la *Varangerfjord al la Golfo de *Bothnia; *thence ĝi kuris al la *Kurisches *Haff en la suda Balta, kaj *thence al la buŝo de la *Danube. De la *Danube, ĝi prenis grandan rondan kamentubiston al la Okcidenta ampleksi Pollandon, kaj apartiganta Rusio de *Prussia, aŭstra Galegio kaj Rumanio.
- Post-editted
La Rusa Imperio (Modernrusa: Российская империя, translit: Rossiyskaya Imperiya) estis ŝtato kiu ekzistis de 1721 ĝis la Rusa Revolucio de 1917. Ĝi estis la sekvinto de la Car-regado de Rusio, kaj la antaŭirinto de Sovetio. Ĝi estis unu el la plej grandaj imperioj kiun la mondo vidis. Dum unu fojo en 1866, ĝi streĉis de orienta Eŭropo, trans norda Azio, kaj enen en Norda Ameriko. Ĉe la komenco de la 19a jarcento, Rusio estis la plej granda lando en la mondo, etendanta de la Arkta Oceano norden al la Nigra Maro sude, de la Balta Maro okcidente al la Pacifika Oceano oriente. Tra ĉi tiu vasta regno estis la 150 milionaj subuloj de la Caro, de malriĉaj, nelegosciaj kamparanoj ĝis noblaj familioj de granda riĉeco. Ĝia registaro, regita de la Caro, estis unu el la lastaj absolutaj monarkioj en Eŭropo. La Rusa Imperio estis natura sekvinto al la Car-regno de Muscovy. Kvankam la imperio estis nur oficiale proklamita de Caro Peter I post la Traktaton de Nystad (1721), kelkaj historiistoj argumentus ke ĝi estis vere naskite kiam Peter transprenis la tronon frue en 1682. La administraciaj limoj de Eŭropa Rusio, krom Finnlando, koincidis larĝe kun la naturaj limoj de la orienta-eŭropaj ebenaĵoj. En la nordo ĝi renkontis la Arktan Oceanon; la insuloj de Novaya Zemlya, Kolguyev kaj Vaigach ankaŭ apartenis al ĝi, sed la Kara Maro estis rekonita kunkalkulita al Siberio. Oriente ĝi havis la Aziaj superregoj de la imperio, Siberio kaj la kirgizaj stepoj, de ambaŭ apartigita de la Urala Montoj, la Urala Rivero kaj la Kaspia Maro — la administracia limo, tamen, parte etendanta en Azion sur la Siberia deklivo de la Uraloj. Sude estis la Nigra Maro kaj Kaŭkazio, apartigita de la lasta de la Manych malaltaĵo, kiu en post-Pliocenaj tempoj konektis la Maron de Azov kun Kaspio. La okcidenta limo estis sole tradicia: ĝi transiris la duoninsulon Kola de la Varanger-fjordo al la Golfo de Bothnia; de tie ĝi iris al la Kurisches Haff en la suda Balto, kaj de tie al la buŝo de Danubo. De Danubo, ĝi prenis grandan rondan balaon okcidenten por ampleksi Pollandon, kaj apartiganta Rusio de Prusio, Aŭstra Galegio kaj Rumanio.
Corpus coverage
Detailed data on corpus from Wikipedia
$ zcat corpa/en.crp.txt.gz | sh corpus-stat.sh Number of tokenised words in the corpus: 478187 Number of known words in the corpus: 450255 Coverage: 94.2 % Top unknown words in the corpus: 191 ^Apollo/*Apollo$ 104 ^Aramaic/*Aramaic$ 91 ^Alberta/*Alberta$ 81 ^de/*de$ 80 ^Abu/*Abu$ 63 ^Bakr/*Bakr$ 62 ^Agassi/*Agassi$ 59 ^Carnegie/*Carnegie$ 58 ^Agrippina/*Agrippina$ 58 ^Achilles/*Achilles$
Detailed data on corpus from Reuter's
$ zcat corpa/en.crp.txt.gz_org_reuters | sh corpus-stat.sh Number of tokenised words in the corpus: 1091016 Number of known words in the corpus: 988758 Coverage: 90.6 % Top unknown words in the corpus: 8952 ^mln/*mln$ 7140 ^dlrs/*dlrs$ 6045 ^pct/*pct$ 4936 ^Reuter/*Reuter$ 3357 ^cts/*cts$ 2292 ^Inc/*Inc$ 2035 ^Corp/*Corp$ 1366 ^REUTER/*REUTER$ 1320 ^Co/*Co$ 926 ^dlr/*dlr$
Detailed data on another corpus (don't remember from where)
$ zcat corpa/en.crp.txt.gz_2 | sh corpus-stat.sh Number of tokenised words in the corpus: 496715 Number of known words in the corpus: 474858 Coverage: 95.6 % Top unknown words in the corpus: 261 ^Corp/*Corp$ 242 ^Inc/*Inc$ 155 ^Co/*Co$ 106 ^anti/*anti$ 102 ^ve/*ve$ 98 ^Iraq/*Iraq$ 97 ^Chicago/*Chicago$ 83 ^Iran/*Iran$ 81 ^San/*San$ 74 ^de/*de$