Vikipedia korpuso de Esperanto
Revision as of 16:16, 10 January 2010 by Jacob Nordfalk (talk | contribs)
tekstaro (aux Korpuso) estas aro da tekstoj, kiun oni uzas por ekzameni aux plobonigi lingvoparon.
Tekstaro de vikipedio
Elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:
wget -O esperantowiki-xml2txt.py "http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain" wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2
Poste, faru
bunzip2 -c eowiki-latest-pages-articles.xml.bz2 | python esperantowiki-xml2txt.py | grep -v "''" | grep -v http | grep -v "#" | grep -v "@" |\ grep -e '................................................' | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt
La lasta 3 komandoj ne estas strikte necesa. Ili ordigas kaj trovas nur *uniqe linioj, tiame ordigas hazarde (miksi la propoziciojn) kaj aldonas liniajn nombrojn.