Difference between revisions of "Vikipedia korpuso de Esperanto"
Jump to navigation
Jump to search
m (moved Tekstaro to Akiri tekstaron) |
|||
Line 5: | Line 5: | ||
Elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio: |
Elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio: |
||
wget http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain |
wget http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain -O esperantowiki-xml2txt.py |
||
wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2 |
wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2 |
||
Line 11: | Line 11: | ||
Poste, faru |
Poste, faru |
||
bunzip -c eowiki-latest-pages-articles.xml.bz2 | |
bunzip -c eowiki-latest-pages-articles.xml.bz2 | esperantowiki-xml2txt.py | grep -v "''" | grep -v http | grep -v "#" | grep -v "@" |\ |
||
grep -e '................................................' | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt |
grep -e '................................................' | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt |
||
Revision as of 16:08, 10 January 2010
tekstaro (aux Korpuso) estas aro da tekstoj, kiun oni uzas por ekzameni aux plobonigi lingvoparon.
Tekstaro de vikipedio
Elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:
wget http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain -O esperantowiki-xml2txt.py
wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2
Poste, faru
bunzip -c eowiki-latest-pages-articles.xml.bz2 | esperantowiki-xml2txt.py | grep -v "" | grep -v http | grep -v "#" | grep -v "@" |\
grep -e '................................................' | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt