Difference between revisions of "Vikipedia korpuso de Esperanto"

From Apertium
Jump to navigation Jump to search
Line 118: Line 118:
* http://tekstaro.com/ - ne elŝutebla
* http://tekstaro.com/ - ne elŝutebla


Ĝenerale ne-elŝuteblaj tekstaroj ne uzeblas por Apertium, ĉar oni bezonas ilin sur propra komputilo (por kontroli vortokovro/kvanton kaj tipo de nekonataj vortoj, kvalito de traduko, trejni nian statistikaj senambiguilon k.s.).
Ĝenerale ne-elŝuteblaj tekstaroj ne uzeblas por Apertium, ĉar oni bezonas ilin sur propra komputilo (por kontroli vortokovron/kvanton kaj tipo de nekonataj vortoj, kvalito de traduko, trejni nian statistikan senambiguilon k.s.).


[[Category:Resources]]
[[Category:Resources]]

Revision as of 14:14, 10 February 2010

In English.

Korpuso (aux Tekstaro) estas aro da tekstoj, kiun oni povas uzi por lingvoscienca esplorado.

Tekstaro de vikipedio

Mi (--Jacob Nordfalk 15:08, 12 January 2010 (UTC)) uzis kelkajn tagojn por eltiri uzeblan tekstaron de la esperanta vikipedio.

Jen mi prezentas procedon por krei vian propran tekstaron de ĉ. 14 milionoj da vortoj de la esperantlingva Vikipedio.

La defioj por krei bone uzeblan tekstaron de Vikipedio estas pluraj:

  • Certigi ke nur tauxgaj, finpolurita artikoloj estas uzataj
Mi forprenis artikolojn kun titolo kun dupunkto : kaj kun markilo {{polurinda}}
  • Certigi ke la lingvaĵo estas pura Esperanto.
Mi uzis tekstkategorizilon TextCat por tio. Notu ke tio postulas multe la CPU kaj dauxras ĉ. 15 horojn. Se vi emas provi mem, mi konsilas vin unue provi sen TextCat, ĉar la rezulto estas jam relative pura. Poste legu pli da instukcioj en la [programeto] malsupre.
  • Bone interpreti la vikitekstan formaton.
Mi uzis [1] kiel fonton, sed devis multe ŝanĝi por tauxgigi al Esperanto.
  • Ordigi liniojn tiel ke unu linio estas unu frazo.
Do, kunigi rompitajn liniojn kaj disigi ĉe i.a. punkto '.'. Tamen NE disigu liniojn ĉe: 'ĉ. ' 'ekz. ' 'ktp. ' 'i.a. ' 't.n. ' 'k.s. ' 'a.K. ' 'p.K. ' 'p. '.
  • Nombri (tion faras nl -s ". " facile)


Por pli da diskuto de la defioj vidu [2] kaj [3].

Instrukcioj

Jen instrukcioj por eltiri la esperantlingvan vikipedion kaj krei tekstaron de ĝi.

Vi bezonas uzi (Ubuntu) Linux aux alian UNIX-bazitan sistemon (ekz Mac OS X).

Unue, elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:

wget  -O esperantowiki-xml2txt.py "http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain"

wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2

Poste, faru

bunzip2 -c eowiki-latest-pages-articles.xml.bz2 | python esperantowiki-xml2txt.py | grep -v "|" > eowiki-kruda.txt 

cat eowiki-kruda.txt | grep -e '..................................................' | grep -v "''" | grep -v "\[" | grep -v "#" | grep -v "*" | grep -v "@" > eowiki-kruda2.txt
cat eowiki-kruda2.txt | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt

La grep-komandoj elektas frazojn de minimuma longo de 50 signoj kaj forpurigas frazojn kun kursivaj vortoj (ofte alilingvaj) kaj kun diversaj signoj netauxgaj dum evolulaboro por [Apertium]. La sort-komandoj ne estas strikte necesa. Ili ordigas kaj trovas nur unikajn liniojn, kaj poste ordigas hazarde (miksas la tekston). La komando nl -s ". " kaj aldonas liniajn numerojn.

Elŝuti jam preparitan tekstaron

Se vi havas problemojn kun la supraj instrukcioj vi povas elŝuti miajn dosierojn el ĉi tie: http://javabog.dk/esperanto/tekstaro_de_vikipedio/.

Jen iom da statistiko:

  • eowiki-kruda.txt.bz2: 900153 frazoj, 14631691 vortoj, 96 Mb elpakite
  • eowiki.crp.txt.bz2: 573910 frazoj, 10779204 vortoj, 71 Mb elpakite

Vidu Kopirajton kaj licencon por licencaj kondiĉoj.

Specimeno

     1. Berlino iĝis la centra loko en la batalo de la sekretaj servoj kaj orientaj kaj okcidentaj.
     2. Oni ofte priskribas lin kiel arketipon de Renesanco, la homo, kies kvazaŭ senlima scivolemo estis bilancita per ties kapablo inventi.
     3. Tiu estas malgranda pala alaŭdo, pli malgranda ol la kampalaŭdo.
     4. Baum krome eldonis propran semajnan revuon, kiu tamen - kiel la plejmulto de liaj entreprenoj - ne gajnis grandan sukceson.
     5. Peticion, kiun Brazila Ligo-Esperantisto sendis 10-a de aŭgusto 1921 al la Ligo de Nacioj, subskribis pli ol 200 kleraj homoj en Rio-de-Ĵanejro.
     6. 15a. Zedillo, meksikia prezidanto, ordonas ĉesigi la armean teroron kontraŭ la ribeluloj en Chiapas.
     7. Ekde la 1-a de januaro 2007, la nordoriento de la insulo konsistigas la plej grandan parton de la nova administra regiono Hovedstaden (regiono ĉefurba), kaj la resto de la insulo la plej grandan parton de la samnoma administra regiono Sjælland, kiu krome ankoraŭ kovras tri pli malgrandajn sudajn insulojn.
     8. 1624 oni ediktis leĝon pri rekatolikigo kaj kontrolis la civitanan iron al diservo.
     9. Augsburg situas borde de la ĉefriveroj Lech,Wertach kaj Singold.
    10. La novaj bezonoj precipe de la poezio denove rezultis en multaj neologismoj.
    11. Tio estas utila al prevento kaj kuraco de ŝultra artikito kaj skapola periartikito.
    12. La karavanoj reprenis mem la vagonarojn en granda urĝo.
    13. Se la kamparanoj en la sesdekaj jaroj kultivis furaĝoplantojn (hordeon, sekalon, tritikon kaj betojn) por la laktobrutaro kaj ankoraŭ avenon por la laborĉevaloj, nun dominas grandaj kampoj de maizo (por la buĉobrutaro) samkiel de asparago kaj fragoplantoj.
    14. Frankfurto ĉe Majno iĝis laŭleĝa elektloko de la reĝoj de la Sankta Romia Imperio.
    15. Kontinua miksilo estas miksilo por kontinua plenigado de komponentoj de betonmiksaĵo, seninterrompa miksado kaj elverŝado de preta miksaĵo.
    16. Tiaj markoj baldaŭ anstataŭis la tabuletojn kaj la argilaj kovertoj estis la prototipo de la unuaj argilaj skribtabuletoj.
    17. Oni ekstrakta la volatilan oleon de la pipromento per akvovapora distilado, el la supergrundaj partoj de la planto.
    18. 1948: Fino de la 28-jara regado de Britio en Palestino.
    19. La Songaja Imperio elformiĝis en la 15-a jc. en orienta parto de nuna Malio (en regiono de Timbuktuo kaj Gao) kaj etendis sian regon ĝis la haŭsaj reĝlandoj.
    20. Mikaelo Apafi la 2-a kaj Emeriko Thököly iĝis kunprincoj de Transilvanio.
    21. Unuaj elektoj de la Senato (15-a de decembro, 2001).
    22. Li estis esperantisto de 1952, kaj deĵoris en multaj instancoj de la Esperanto-movado.
    23. Estis kolektitaj 14 mil kolektivaj subskriboj kaj 1200 individuaj por la Peticio favore al Esperanto por UNO; en majo prelegis en la Klubo prelego s-anino prof.
    24. Ili ne praktikas ritualajn sakramentojn, pro sia konvinko, ke la tuta vivo estas sakramenta.
    25. Krom tropika agrikulturo (sukerkano, ananaso, oranĝo) kaj fiŝkaptado en Serĝipo estas grava produktado de nafton kaj cementon.
    26. Li servis kiel membro en la Delegacio por la Alpreno de Internacia Helplingvo dum 1907, kiam Ido aperis.
    27. La kristana religio en ĝiaj diversaj kredoj (ortodoksa, maronita, armenkatolika, siriaj kristanoj, ktp) estas la malplimulto kaj estas praktikata ĉefe en la periferiaj provincoj kaj kelkaj urbaj kvartaloj.
    28. La libereco por studi kiel la programo funkcias, kaj ŝanĝi ĝin por viaj bezonoj (libereco 1).
    29. En la plej malnovaj skribaĵoj en Oomoto-ŝinju oni uzas la konstruajn terminojn ’malkonstruo’ kaj ’rekonstruo’ por priskribi tion, kio okazos en la mondo.
    30. Dum 1500-2000, ĝi disvastiĝis al Ameriko, Oceanio kaj subsahara Afriko, nun enhavante 33% de homaro.
    31. Post mallonga restado en Svislando li fariĝis gastprofesoro en la germana urbo Münster, kaj de 1960 ĝis 1964 li agis kiel profesoro pri politiko en Stutgarto.
    32. Kiam ĝi pretos, ĝi superas 5 metrojn la nun plej altan turon la Kanadan Nacian Turon en Toronto.
    33. Li naskiĝis la 20-an de aprilo de 1889 en supraaŭstria Braunau am Inn, malgraŭ ke li konsideris sian ĝustan hejmo-urbon ĉiam Lincon, kie li pli malfrue elkreskis.
    34. En Israelo la rusa lingvo estas lernata en superaj klasoj de kelkaj mezlernejoj kiel la dua fremda lingvo.
    35. Dum la 'foira' Lingva Festivalo oni instalas budojn, standojn de lingvoj kaj la deĵorantoj respondas al eventualaj demandoj de interesitoj, reklamas siajn lingvojn, disdonas flugfoliojn.
    36. En 2006 Ortega, post 16 jaroj de malvenko, venkis prezidentajn balotojn (38 % de la voĉdonoj) kontraŭ la liberala kandidato nome Eduardo Montealegre (28 %).
    37. La presejo en Eŭropo, evoluis dum la Renesanca apogeo.
    38. Ĉi-tie estas historia-etnografia muzeo, kie oni povas vidi bronzajn iloj de 3-a jarmilo a.K., bizantiajn, macedonajn kaj kolĥajn monerojn, vazon de la epoko de Giorgi la 3-a (patro de Reĝino Tamar), antikvajn kartvelajn manuskriptojn.
    39. historiaj vestaĵoj kaj ĉekorpaj objektoj: mufo, gamaŝo, tuniko, monoklo k.m.a.
    40. Vojtěch Kraus estis ankaŭ ekster sia profesia ofico tre aktiva, intense kaj diversmaniere.
    41. La mezepoka burĝa parto de Buda komenciĝis ĉe la nuna Paradoplaco (Disz tér).
    42. Montra elektra telegrafado: la unua sukceso estis diserigi akvon per elektra kurento.
    43. Post levo de la aŭdilo (aŭ aŭdparolilo) la mikrofono ricevas kurenton, en la centralo lumas lampo aŭ io simila.
    44. Tuj malantaŭ la Verda pordego staras malfrugotika domo n-ro 77 (nuna Regiona biblioteko), kiu estas modelo de la stilo.
    45. Rjazana princlando rolis gravan rolon en la vivo de rusaj princlandoj.
    46. La sekva tabelo donas kelkajn valorojn por oleo kaj akvo.
    47. La 19-a de septembro estas la 261-a tago de la jaro (la 262-a en superjaroj) laŭ la gregoria kalendaro.
    48. Persaj katoj havas diversajn kolorojn, nuntempe oni konas pli ol 60.
    49. Instruis E-n en sia lernejo en Komerca Akademio.
    50. Kilian el Třebíč. Grava revuo Věda a život (Scienco kaj vivo) alportis en la 6-a kaj 7-a n-roj ampleksan objektivan studon kaj analizon de Esperanto el la plumo de universitata profesoro PhDr.

Aliaj tekstaroj

Ĝenerale ne-elŝuteblaj tekstaroj ne uzeblas por Apertium, ĉar oni bezonas ilin sur propra komputilo (por kontroli vortokovron/kvanton kaj tipo de nekonataj vortoj, kvalito de traduko, trejni nian statistikan senambiguilon k.s.).