Vikipedia korpuso de Esperanto

From Apertium
Revision as of 16:07, 10 January 2010 by Jacob Nordfalk (talk | contribs) (moved Tekstaro to Akiri tekstaron)
Jump to navigation Jump to search

tekstaro (aux Korpuso) estas aro da tekstoj, kiun oni uzas por ekzameni aux plobonigi lingvoparon.

Tekstaro de vikipedio

Elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:

 wget http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain
 wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2

Poste, faru

 bunzip -c eowiki-latest-pages-articles.xml.bz2 | /esperantowiki-xml2txt.py | grep -v "" | grep -v http | grep -v "#" | grep -v "@" |\

grep -e '................................................' | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt