Difference between revisions of "Vikipedia korpuso de Esperanto"
Jump to navigation
Jump to search
m (moved Akiri tekstaron to Vikipedia korpuso de Esperanto) |
|||
Line 1: | Line 1: | ||
''' |
'''Korpuso''' (aux '''Tekstaro''') estas aro da tekstoj, kiun oni povas uzi por lingvoscienca esplorado. |
||
==Tekstaro de vikipedio== |
==Tekstaro de vikipedio== |
||
Jen instrukcioj por eltiri la esperantlingvan vikipedion kaj krei tekstaron de ĝi. |
|||
⚫ | |||
⚫ | |||
<pre> |
<pre> |
||
wget -O esperantowiki-xml2txt.py "http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain" |
wget -O esperantowiki-xml2txt.py "http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain" |
||
Line 9: | Line 11: | ||
wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2 |
wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2 |
||
</pre> |
</pre> |
||
Poste, faru |
Poste, faru |
Revision as of 14:58, 12 January 2010
Korpuso (aux Tekstaro) estas aro da tekstoj, kiun oni povas uzi por lingvoscienca esplorado.
Tekstaro de vikipedio
Jen instrukcioj por eltiri la esperantlingvan vikipedion kaj krei tekstaron de ĝi.
Unue, elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:
wget -O esperantowiki-xml2txt.py "http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain" wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2
Poste, faru
bunzip2 -c eowiki-latest-pages-articles.xml.bz2 | python esperantowiki-xml2txt.py | grep -v "''" | grep -v http | grep -v "#" | grep -v "@" |\ grep -e '................................................' | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt
La lasta 3 komandoj ne estas strikte necesa. Ili ordigas kaj trovas nur *uniqe linioj, tiame ordigas hazarde (miksi la propoziciojn) kaj aldonas liniajn nombrojn.