Vikipedia korpuso de Esperanto

From Apertium
Revision as of 16:06, 10 January 2010 by Jacob Nordfalk (talk | contribs) (Created page with ''''tekstaro''' (aux '''Korpuso''') estas aro da tekstoj, kiun oni uzas por ekzameni aux plobonigi lingvoparon. ==Tekstaro de vikipedio== Elŝutu http://apertium.svn.sourceforg…')
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

tekstaro (aux Korpuso) estas aro da tekstoj, kiun oni uzas por ekzameni aux plobonigi lingvoparon.

Tekstaro de vikipedio

Elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:

 wget http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain
 wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2

Poste, faru

 bunzip -c eowiki-latest-pages-articles.xml.bz2 | /esperantowiki-xml2txt.py | grep -v "" | grep -v http | grep -v "#" | grep -v "@" |\

grep -e '................................................' | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt