Sardo e italiano/Work plan

From Apertium
Jump to navigation Jump to search

Personas:

  • Gianfranco, Adrià, Hèctor, Fran, Mikel

Tareas:

  • Convertir el corrector ortográfico en analizador .dix (= ~40k entradas)
  • Importar las palabras del glossario de la región (= 6425 entradas)
  • Crear un corpus de sardo LSC de Limbas e natziones descargar aquí
  • Importar las palabras que quedan de Morph-it!
  • Arreglar los enclíticos de verbos.
  • Añadir ~15,000 palabras al diccionario bilingüe (para tener al menos 20k correspondencias LSC-italiano).
  • Arreglar los nombres propios en el diccionario de italiano (se tiene que empezar desde cero creo.)
  • Revisar entradas al bilingüe y monolingüe de sardo para que sigan LSC (categoria por categoria).
  • Trabajar en reglas de transferencia
  • Trabajar en reglas de desambiguación
  • Trabajar en reglas de selección léxica
  • Compilar un pequeño corpus paralelo de LSC-italiano.
  • Hacer el testvoc.
  • Hacer una evaluación (artículos de Wikipedia).
  • Escribir artículo (Linguamática?, SEPLN?)


  • rendiment: approx. 1000 words/day bidix.

Plan semanal

Semana Fechas Cobertura Testvoc Eval. (%) cov. raw (%) cov. trimmed (%) WER Bidix Err. Cumplido ?
srd ita srd→ita ita→srd srd→ita ita→srd srd→ita ita→srd
0 11 abril—17 abril 74% 350 80.6 85.9 74.5 76.5 24.00 11.72 2,919
1 18 abril—24 abril 76% 80.6 85.9 77.9 77.8 7,106 109,489 60,296
2 25 abril—1 mayo 78% 82.9 87.1 80.3 78.6 10,606 380,825 49,697
3 2 mayo—8 mayo 80% pr, cnj*, adv 500 84.0 87.2 82.2 79.8 24.79 16.73 11,627 444,291 49,221
4 9 mayo—15 mayo 80% 85.8 88.2 82.3 81.1 11,778 467,068 149,773
5 16 mayo—22 mayo 80.5% 85.8 88.5 82.5 81.5 11,821 429,598 44,666
6 23 mayo—29 mayo 81% prn, det 11,725 7,936
7 30 mayo—5 junio 81.5%
8 6 junio—12 junio 82%
9 13 junio—19 junio 83%
10 20 junio—26 junio 84%
11 27 junio—3 julio 85% n 500
12 4 julio—10 julio 86%
13 11 junio—17 julio 87% vblex
14 18 julio—24 julio 87%
15 25 julio—31 julio 88% adj
16 1 agosto—7 agosto 89%
17 8 agosto—14 agosto 90% 2000
18 15 agosto—21 agosto 90%

Para calcular los numeros

Errors (calculate in apertium-srd-ita)
$ bash dev/testvoc/generation.sh srd-ita | wc -l 
$ bash dev/testvoc/generation.sh ita-srd | wc -l
Bidix (calculate in apertium-srd-ita)
$ cat apertium-srd-ita.srd-ita.dix | grep '<l' | wc -l
Trimmed coverage (calculate in apertium-srd-ita)
$ cat srd.crp.txt | apertium -d . srd-ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.trim.coverage.txt
$ calc `cat /tmp/srd.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.trim.coverage.txt | wc -l`

$ cat ita.crp.txt | apertium -d . ita-srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/ita.trim.coverage.txt
$ calc `cat /tmp/ita.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/ita.trim.coverage.txt | wc -l`
Raw coverage (calculate in apertium-srd, apertium-ita)
$ cat srd.crp.txt | apertium -d . srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.raw.coverage.txt
$ calc `cat /tmp/srd.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.raw.coverage.txt | wc -l`

$ cat ita.crp.txt | apertium -d . ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/ita.raw.coverage.txt
$ calc `cat /tmp/ita.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/ita.raw.coverage.txt | wc -l`
Para hacer un corpus reducido de italiano
wget https://dumps.wikimedia.org/itwiki/latest/itwiki-latest-pages-articles.xml.bz2
wget https://svn.code.sf.net/p/apertium/svn/trunk/apertium-tools/WikiExtractor.py
python3 WikiExtractor.py --infn itwiki-latest-pages-articles.xml.bz2 2>log 
cat -n wiki.txt | grep -P '7\t' | cut -f2- > wiki.10pc.txt