Difference between revisions of "Vikipedia korpuso de Esperanto"

From Apertium
Jump to navigation Jump to search
Line 1: Line 1:
 
'''Korpuso''' (aux '''Tekstaro''') estas aro da tekstoj, kiun oni povas uzi por lingvoscienca esplorado.
 
'''Korpuso''' (aux '''Tekstaro''') estas aro da tekstoj, kiun oni povas uzi por lingvoscienca esplorado.
   
==Tekstaro de vikipedio==
+
=Tekstaro de vikipedio=
   
 
Mi (--[[User:Jacob Nordfalk|Jacob Nordfalk]] 15:08, 12 January 2010 (UTC)) uzis kelkajn tagojn por eltiri uzeblan tekstaron de la esperanta vikipedio.
 
Mi (--[[User:Jacob Nordfalk|Jacob Nordfalk]] 15:08, 12 January 2010 (UTC)) uzis kelkajn tagojn por eltiri uzeblan tekstaron de la esperanta vikipedio.
Line 8: Line 8:
   
 
Jen la defioj de krei bone uzeblan tekstaron estas pluraj:
 
Jen la defioj de krei bone uzeblan tekstaron estas pluraj:
- bone interpreti la vikitekstan formaton.
+
* Bone interpreti la vikitekstan formaton.
-- Mi [https://www.hf.ntnu.no/hf/isk/Ansatte/petter.haugereid/cl/wiki-corpus.html] kiel fonto, sed devis multe ŝanĝi por tauxgigi al Esperanto.
+
:: Mi uzis [https://www.hf.ntnu.no/hf/isk/Ansatte/petter.haugereid/cl/wiki-corpus.html] kiel fonto, sed devis multe ŝanĝi por tauxgigi al Esperanto.
- kunmeti liniojn tiel ke unu linio estas unu frazo
+
* Kunmeti liniojn tiel ke unu linio estas unu frazo
- certigi ke nur tauxga polurita vikiteksto eniras
+
* Certigi ke nur tauxga polurita vikiteksto eniras
-- mi forprenas artikolojn kun dupunkto '':'' kaj kun markilo <code>{{polurinda}}</code>
+
:: Mi forprenis artikolojn kun dupunkto '':'' kaj kun markilo <nowiki>{{polurinda}}</nowiki>
- nombri (tion faras <code>nl -s ". "</code> facile)
+
* Nombri (tion faras <code>nl -s ". "</code> facile)
   
  +
Por pli da diskuto de la defioj vidu [http://groups.google.com/group/apertium_eo/browse_thread/thread/8cc9186b8dbed30d] kaj [http://groups.google.com/group/apertium_eo/browse_thread/thread/2536fd8bee875b5d].
   
  +
==Instrukcioj==
 
Jen instrukcioj por eltiri la esperantlingvan vikipedion kaj krei tekstaron de ĝi.
 
Jen instrukcioj por eltiri la esperantlingvan vikipedion kaj krei tekstaron de ĝi.
   

Revision as of 15:12, 12 January 2010

Korpuso (aux Tekstaro) estas aro da tekstoj, kiun oni povas uzi por lingvoscienca esplorado.

Tekstaro de vikipedio

Mi (--Jacob Nordfalk 15:08, 12 January 2010 (UTC)) uzis kelkajn tagojn por eltiri uzeblan tekstaron de la esperanta vikipedio.

Jen mi prezentas procedon por krei vian propran tekstaron de ĉ. 10 milionaj da vortoj de Vikipedio. Se vi interesiĝas pri aliaj lingvoj, vizitu la Vikipedian elŝutejon. Estu konscia ke grandaj lingvoj havas grandajn deŝutojn. Vidu Kopirajton kaj licencon por licencaj kondiĉoj.

Jen la defioj de krei bone uzeblan tekstaron estas pluraj:

  • Bone interpreti la vikitekstan formaton.
Mi uzis [1] kiel fonto, sed devis multe ŝanĝi por tauxgigi al Esperanto.
  • Kunmeti liniojn tiel ke unu linio estas unu frazo
  • Certigi ke nur tauxga polurita vikiteksto eniras
Mi forprenis artikolojn kun dupunkto : kaj kun markilo {{polurinda}}
  • Nombri (tion faras nl -s ". " facile)

Por pli da diskuto de la defioj vidu [2] kaj [3].

Instrukcioj

Jen instrukcioj por eltiri la esperantlingvan vikipedion kaj krei tekstaron de ĝi.

Unue, elŝutu http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?view=log kaj kaj la esperantlingva vikipedio:

wget  -O esperantowiki-xml2txt.py "http://apertium.svn.sourceforge.net/viewvc/apertium/trunk/apertium-eo-en/corpa/esperantowiki-xml2txt.py?revision=HEAD&content-type=text/plain"

wget http://download.wikimedia.org/eowiki/latest/eowiki-latest-pages-articles.xml.bz2


Poste, faru

bunzip2 -c eowiki-latest-pages-articles.xml.bz2 | python esperantowiki-xml2txt.py | grep -v "''" | grep -v http | grep -v "#" | grep -v "@" |\
grep -e '................................................' | sort -fiu | sort -R | nl -s ". " > eowiki.crp.txt


La lasta 3 komandoj ne estas strikte necesa. Ili ordigas kaj trovas nur *uniqe linioj, tiame ordigas hazarde (miksi la propoziciojn) kaj aldonas liniajn nombrojn.