Vikipedia korpuso de Esperanto

From Apertium
Revision as of 14:58, 12 January 2010 by Jacob Nordfalk (talk | contribs)
Jump to navigation Jump to search

Korpuso (aux Tekstaro) estas aro da tekstoj, kiun oni povas uzi por lingvoscienca esplorado.

Tekstaro de vikipedio

Jen instrukcioj por eltiri la esperantlingvan vikipedion kaj krei tekstaron de ĝi.

Unue, elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:

wget  -O esperantowiki-xml2txt.py "http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain"

wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2


Poste, faru

bunzip2 -c eowiki-latest-pages-articles.xml.bz2 | python esperantowiki-xml2txt.py | grep -v "''" | grep -v http | grep -v "#" | grep -v "@" |\
grep -e '................................................' | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt


La lasta 3 komandoj ne estas strikte necesa. Ili ordigas kaj trovas nur *uniqe linioj, tiame ordigas hazarde (miksi la propoziciojn) kaj aldonas liniajn nombrojn.