Difference between revisions of "Sardo e italiano/Work plan"

Revision as of 07:35, 15 May 2016

Personas:

Gianfranco, Adrià, Hèctor, Fran, Mikel

Tareas:

Convertir el corrector ortográfico en analizador .dix (= ~40k entradas)
Importar las palabras del glossario de la región (= 6425 entradas)
~~Crear un corpus de sardo LSC de Limbas e natziones~~ descargar aquí
Importar las palabras que quedan de Morph-it!
Arreglar los enclíticos de verbos.
Añadir ~15,000 palabras al diccionario bilingüe (para tener al menos 20k correspondencias LSC-italiano).
Arreglar los nombres propios en el diccionario de italiano (se tiene que empezar desde cero creo.)
Revisar entradas al bilingüe y monolingüe de sardo para que sigan LSC (categoria por categoria).
Trabajar en reglas de transferencia
Trabajar en reglas de desambiguación
Trabajar en reglas de selección léxica
Compilar un pequeño corpus paralelo de LSC-italiano.
Hacer el testvoc.
Hacer una evaluación (artículos de Wikipedia).
Escribir artículo (Linguamática?, SEPLN?)

rendiment: approx. 1000 words/day bidix.

Plan semanal

Semana	Fechas	Cobertura	Testvoc	Eval.	(%) cov. raw		(%) cov. trimmed		(%) WER		Bidix	Err.		Cumplido ?
Semana	Fechas	Cobertura	Testvoc	Eval.	srd	ita	srd→ita	ita→srd	srd→ita	ita→srd	Bidix	srd→ita	ita→srd	Cumplido ?
0	11 abril—17 abril	74%		350	80.6	85.9	74.5	76.5	24.00	11.72	2,919			✓
1	18 abril—24 abril	76%			80.6	85.9	77.9	77.8			7,106	109,489	60,296	✓
2	25 abril—1 mayo	78%			82.9	87.1	80.3	78.6			10,606	380,825	49,697	✓
3	2 mayo—8 mayo	80%	pr, cnj*, adv	500	84.0	87.2	82.2	79.8	24.79	16.73	11,627	444,291	49,221	✓
4	9 mayo—15 mayo	80%			85.3	87.4	82.1	87.4				293,482	149,773
5	16 mayo—22 mayo	80.5%
6	23 mayo—29 mayo	81%	prn, det
7	30 mayo—5 junio	81.5%
8	6 junio—12 junio	82%
9	13 junio—19 junio	83%
10	20 junio—26 junio	84%
11	27 junio—3 julio	85%	n	500
12	4 julio—10 julio	86%
13	11 junio—17 julio	87%	vblex
14	~~18 julio—24 julio~~	87%
15	25 julio—31 julio	88%	adj
16	1 agosto—7 agosto	89%
17	8 agosto—14 agosto	90%		2000
18	15 agosto—21 agosto	90%

Para calcular los numeros

Errors (calculate in apertium-srd-ita)

$ bash dev/testvoc/generation.sh srd-ita | wc -l 
$ bash dev/testvoc/generation.sh ita-srd | wc -l

Bidix (calculate in apertium-srd-ita)

$ cat apertium-srd-ita.srd-ita.dix | grep '<l' | wc -l

Trimmed coverage (calculate in apertium-srd-ita)

$ cat srd.crp.txt | apertium -d . srd-ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.trim.coverage.txt
$ calc `cat /tmp/srd.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.trim.coverage.txt | wc -l`

$ cat ita.crp.txt | apertium -d . ita-srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/ita.trim.coverage.txt
$ calc `cat /tmp/ita.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/ita.trim.coverage.txt | wc -l`

Raw coverage (calculate in apertium-srd, apertium-ita)

$ cat srd.crp.txt | apertium -d . srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.raw.coverage.txt
$ calc `cat /tmp/srd.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.raw.coverage.txt | wc -l`

$ cat ita.crp.txt | apertium -d . ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/ita.raw.coverage.txt
$ calc `cat /tmp/ita.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/ita.raw.coverage.txt | wc -l`

Para hacer un corpus reducido de italiano

wget https://dumps.wikimedia.org/itwiki/latest/itwiki-latest-pages-articles.xml.bz2
wget https://svn.code.sf.net/p/apertium/svn/trunk/apertium-tools/WikiExtractor.py
python3 WikiExtractor.py --infn itwiki-latest-pages-articles.xml.bz2 2>log 
cat -n wiki.txt | grep -P '7\t' | cut -f2- > wiki.10pc.txt

@@ Line 39: / Line 39: @@
 | 3      || 2 mayo&mdash;8 mayo        || 80%       || pr, cnj*, adv || 500   || || 84.0 || 87.2 || 82.2 || 79.8 || 24.79 || 16.73 || 11,627 || 444,291 || 49,221 || ✓
 |-
-| 4      || 9 mayo&mdash;15 mayo       || 80%       ||               ||       || || 85.3 || 87.2 ||      ||       || 87.4  ||        ||       || 293,482 || 149,773 ||
+| 4      || 9 mayo&mdash;15 mayo       || 80%       ||               ||       || || 85.3 || 87.4 || 82.1 || 87.4      ||   ||        ||       || 293,482 || 149,773 ||
 |-
 | 5      || 16 mayo&mdash;22 mayo      || 80.5%     ||               ||       || ||     ||       ||      ||        ||       ||   || ||  || ||

Difference between revisions of "Sardo e italiano/Work plan"

Revision as of 07:35, 15 May 2016

Plan semanal

Para calcular los numeros

Navigation menu

Personal tools

Namespaces

Variants

Views

More

Search

Navigation

Tools