Difference between revisions of "Vikipedia korpuso de Esperanto"
Line 14: | Line 14: | ||
:: Mi forprenis artikolojn kun dupunkto '':'' kaj kun markilo <nowiki>{{polurinda}}</nowiki> |
:: Mi forprenis artikolojn kun dupunkto '':'' kaj kun markilo <nowiki>{{polurinda}}</nowiki> |
||
* Nombri (tion faras <code>nl -s ". "</code> facile) |
* Nombri (tion faras <code>nl -s ". "</code> facile) |
||
* Certigi ke la lingvaĵo estas Esperanto, per [de http://www.let.rug.nl/~vannoord/TextCat/ TextCat] (tekstkaterogigilo). |
|||
:: NB ke tiu ili postulas multe la CPU kaj dauxras ĉ. 10 horoj |
|||
Por pli da diskuto de la defioj vidu [http://groups.google.com/group/apertium_eo/browse_thread/thread/8cc9186b8dbed30d] kaj [http://groups.google.com/group/apertium_eo/browse_thread/thread/2536fd8bee875b5d]. |
Por pli da diskuto de la defioj vidu [http://groups.google.com/group/apertium_eo/browse_thread/thread/8cc9186b8dbed30d] kaj [http://groups.google.com/group/apertium_eo/browse_thread/thread/2536fd8bee875b5d]. |
||
==Instrukcioj== |
==Instrukcioj== |
||
Jen instrukcioj por eltiri la esperantlingvan vikipedion kaj krei tekstaron de ĝi. |
Jen instrukcioj por eltiri la esperantlingvan vikipedion kaj krei tekstaron de ĝi. |
||
Vi bezonas uzi (Ubuntu) Linux aux alia UNIX-bazita sistemo (ekz Mac OS X). |
|||
Unue, elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio: |
Unue, elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio: |
||
Line 31: | Line 36: | ||
<pre> |
<pre> |
||
bunzip2 -c eowiki-latest-pages-articles.xml.bz2 | python esperantowiki-xml2txt.py |
bunzip2 -c eowiki-latest-pages-articles.xml.bz2 | python esperantowiki-xml2txt.py > eowiki-kruda.txt |
||
grep -e '................................................' | |
cat eowiki-kruda.txt | grep -e '................................................' | grep -v "''" | grep -v "[" | grep -v "#" | grep -v "@" > eowiki-kruda2.txt |
||
cat eowiki-kruda2.txt | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt |
|||
</pre> |
</pre> |
||
La ''grep''-komandoj elektas frazojn de minimuma longo kaj forpurigas frazojn kun kursivaj vortoj (ofte alilingvaj) kaj kun diversaj signoj netauxgaj dum evolulaboro por [Apertium]. |
|||
La |
La ''sort''-komandoj ne estas strikte necesa. Ili ordigas kaj trovas nur unikajn liniojn, kaj poste ordigas hazarde (miksas la tekston). La komando ''nl -s ". "'' kaj aldonas liniajn numerojn. |
||
[[Category:Resources]] |
[[Category:Resources]] |
Revision as of 15:23, 12 January 2010
Korpuso (aux Tekstaro) estas aro da tekstoj, kiun oni povas uzi por lingvoscienca esplorado.
Tekstaro de vikipedio
Mi (--Jacob Nordfalk 15:08, 12 January 2010 (UTC)) uzis kelkajn tagojn por eltiri uzeblan tekstaron de la esperanta vikipedio.
Jen mi prezentas procedon por krei vian propran tekstaron de ĉ. 10 milionaj da vortoj de Vikipedio. Se vi interesiĝas pri aliaj lingvoj, vizitu la Vikipedian elŝutejon. Estu konscia ke grandaj lingvoj havas grandajn deŝutojn. Vidu Kopirajton kaj licencon por licencaj kondiĉoj.
Jen la defioj de krei bone uzeblan tekstaron estas pluraj:
- Bone interpreti la vikitekstan formaton.
- Mi uzis [1] kiel fonto, sed devis multe ŝanĝi por tauxgigi al Esperanto.
- Kunmeti liniojn tiel ke unu linio estas unu frazo
- Certigi ke nur tauxga polurita vikiteksto eniras
- Mi forprenis artikolojn kun dupunkto : kaj kun markilo {{polurinda}}
- Nombri (tion faras
nl -s ". "
facile) - Certigi ke la lingvaĵo estas Esperanto, per [de http://www.let.rug.nl/~vannoord/TextCat/ TextCat] (tekstkaterogigilo).
- NB ke tiu ili postulas multe la CPU kaj dauxras ĉ. 10 horoj
Por pli da diskuto de la defioj vidu [2] kaj [3].
Instrukcioj
Jen instrukcioj por eltiri la esperantlingvan vikipedion kaj krei tekstaron de ĝi.
Vi bezonas uzi (Ubuntu) Linux aux alia UNIX-bazita sistemo (ekz Mac OS X).
Unue, elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:
wget -O esperantowiki-xml2txt.py "http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain" wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2
Poste, faru
bunzip2 -c eowiki-latest-pages-articles.xml.bz2 | python esperantowiki-xml2txt.py > eowiki-kruda.txt cat eowiki-kruda.txt | grep -e '................................................' | grep -v "''" | grep -v "[" | grep -v "#" | grep -v "@" > eowiki-kruda2.txt cat eowiki-kruda2.txt | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt
La grep-komandoj elektas frazojn de minimuma longo kaj forpurigas frazojn kun kursivaj vortoj (ofte alilingvaj) kaj kun diversaj signoj netauxgaj dum evolulaboro por [Apertium]. La sort-komandoj ne estas strikte necesa. Ili ordigas kaj trovas nur unikajn liniojn, kaj poste ordigas hazarde (miksas la tekston). La komando nl -s ". " kaj aldonas liniajn numerojn.