Vikipedia korpuso de Esperanto

From Apertium
Jump to navigation Jump to search

tekstaro (aux Korpuso) estas aro da tekstoj, kiun oni uzas por ekzameni aux plobonigi lingvoparon.

Tekstaro de vikipedio

Elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:

  wget http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain -O esperantowiki-xml2txt.py

  wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2

Poste, faru

  bunzip -c eowiki-latest-pages-articles.xml.bz2 | esperantowiki-xml2txt.py | grep -v "''" | grep -v http | grep -v "#" | grep -v "@" |\
grep -e '................................................' | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt