Difference between revisions of "Vikipedia korpuso de Esperanto"

From Apertium
Jump to navigation Jump to search
Line 1: Line 1:
'''tekstaro''' (aux '''Korpuso''') estas aro da tekstoj, kiun oni uzas por ekzameni aux plobonigi lingvoparon.
+
'''Korpuso''' (aux '''Tekstaro''') estas aro da tekstoj, kiun oni povas uzi por lingvoscienca esplorado.
   
 
==Tekstaro de vikipedio==
 
==Tekstaro de vikipedio==
   
  +
Jen instrukcioj por eltiri la esperantlingvan vikipedion kaj krei tekstaron de ĝi.
Elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:
 
  +
 
Unue, elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:
 
<pre>
 
<pre>
 
wget -O esperantowiki-xml2txt.py "http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain"
 
wget -O esperantowiki-xml2txt.py "http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain"
Line 9: Line 11:
 
wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2
 
wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2
 
</pre>
 
</pre>
  +
   
 
Poste, faru
 
Poste, faru

Revision as of 14:58, 12 January 2010

Korpuso (aux Tekstaro) estas aro da tekstoj, kiun oni povas uzi por lingvoscienca esplorado.

Tekstaro de vikipedio

Jen instrukcioj por eltiri la esperantlingvan vikipedion kaj krei tekstaron de ĝi.

Unue, elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:

wget  -O esperantowiki-xml2txt.py "http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain"

wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2


Poste, faru

bunzip2 -c eowiki-latest-pages-articles.xml.bz2 | python esperantowiki-xml2txt.py | grep -v "''" | grep -v http | grep -v "#" | grep -v "@" |\
grep -e '................................................' | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt


La lasta 3 komandoj ne estas strikte necesa. Ili ordigas kaj trovas nur *uniqe linioj, tiame ordigas hazarde (miksi la propoziciojn) kaj aldonas liniajn nombrojn.