Difference between revisions of "Vikipedia korpuso de Esperanto"

From Apertium
Jump to navigation Jump to search
Line 4: Line 4:
   
 
Elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:
 
Elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:
  +
<pre>
 
 
wget http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain -O esperantowiki-xml2txt.py
 
wget http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain -O esperantowiki-xml2txt.py
   
 
wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2
 
wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2
  +
</pre>
   
 
Poste, faru
 
Poste, faru
   
  +
<pre>
 
bunzip -c eowiki-latest-pages-articles.xml.bz2 | esperantowiki-xml2txt.py | grep -v "''" | grep -v http | grep -v "#" | grep -v "@" |\
 
bunzip -c eowiki-latest-pages-articles.xml.bz2 | esperantowiki-xml2txt.py | grep -v "''" | grep -v http | grep -v "#" | grep -v "@" |\
 
grep -e '................................................' | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt
 
grep -e '................................................' | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt
  +
</pre>
   
   

Revision as of 16:11, 10 January 2010

tekstaro (aux Korpuso) estas aro da tekstoj, kiun oni uzas por ekzameni aux plobonigi lingvoparon.

Tekstaro de vikipedio

Elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:

  wget http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain -O esperantowiki-xml2txt.py

  wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2

Poste, faru

  bunzip -c eowiki-latest-pages-articles.xml.bz2 | esperantowiki-xml2txt.py | grep -v "''" | grep -v http | grep -v "#" | grep -v "@" |\
grep -e '................................................' | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt