Difference between revisions of "Vikipedia korpuso de Esperanto"
Jump to navigation
Jump to search
(Created page with ''''tekstaro''' (aux '''Korpuso''') estas aro da tekstoj, kiun oni uzas por ekzameni aux plobonigi lingvoparon. ==Tekstaro de vikipedio== Elŝutu http://apertium.svn.sourceforg…') |
m (moved Tekstaro to Akiri tekstaron) |
(No difference)
|
Revision as of 16:07, 10 January 2010
tekstaro (aux Korpuso) estas aro da tekstoj, kiun oni uzas por ekzameni aux plobonigi lingvoparon.
Tekstaro de vikipedio
Elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:
wget http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain
wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2
Poste, faru
bunzip -c eowiki-latest-pages-articles.xml.bz2 | /esperantowiki-xml2txt.py | grep -v "" | grep -v http | grep -v "#" | grep -v "@" |\
grep -e '................................................' | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt