Difference between revisions of "Sardo e italiano/Work plan"

From Apertium
Jump to navigation Jump to search
Line 35: Line 35:
| 1 || 18 abril—24 abril || 76% || || || || 80.6 || 85.9 || 77.9 || 77.8 || || || 7,106 || 109,489 || 60,296 || ✓
| 1 || 18 abril—24 abril || 76% || || || || 80.6 || 85.9 || 77.9 || 77.8 || || || 7,106 || 109,489 || 60,296 || ✓
|-
|-
| 2 || 25 abril—1 mayo || 78% || || || || || || 80.3 || || || || 10,606 || 380,825 || 49,697 || ✓
| 2 || 25 abril—1 mayo || 78% || || || || 82.9 || || 80.3 || || || || 10,606 || 380,825 || 49,697 || ✓
|-
|-
| 3 || 2 mayo—8 mayo || 80% || pr, cnj*, adv || 500 || || || || || || || || || || ||
| 3 || 2 mayo—8 mayo || 80% || pr, cnj*, adv || 500 || || || || || || || || || || ||

Revision as of 20:35, 2 May 2016

Personas:

  • Gianfranco, Adrià, Hèctor, Fran, Mikel

Tareas:

  • Convertir el corrector ortográfico en analizador .dix (= ~40k entradas)
  • Importar las palabras del glossario de la región (= 6425 entradas)
  • Crear un corpus de sardo LSC de Limbas e natziones descargar aquí
  • Importar las palabras que quedan de Morph-it!
  • Arreglar los enclíticos de verbos.
  • Añadir ~15,000 palabras al diccionario bilingüe (para tener al menos 20k correspondencias LSC-italiano).
  • Arreglar los nombres propios en el diccionario de italiano (se tiene que empezar desde cero creo.)
  • Revisar entradas al bilingüe y monolingüe de sardo para que se sigan LSC (categoria por categoria).
  • Trabajar en reglas de transferencia
  • Trabajar en reglas de desambiguación
  • Trabajar en reglas de selección léxica
  • Compilar un pequeño corpus paralelo de LSC-italiano.
  • Hacer el testvoc.
  • Hacer una evaluación (artículos de Wikipedia).
  • Escribir artículo (Linguamática?, SEPLN?)


  • rendiment: approx. 1000 words/day bidix.

Plan semanal

Semana Fechas Cobertura Testvoc Eval. (%) cov. raw (%) cov. trimmed (%) WER Bidix Err. Cumplido ?
srd ita srd→ita ita→srd srd→ita ita→srd srd→ita ita→srd
0 11 abril—17 abril 74% 350 80.6 85.9 74.5 76.5 24.00 11.72 2,919
1 18 abril—24 abril 76% 80.6 85.9 77.9 77.8 7,106 109,489 60,296
2 25 abril—1 mayo 78% 82.9 80.3 10,606 380,825 49,697
3 2 mayo—8 mayo 80% pr, cnj*, adv 500
4 9 mayo—15 mayo 80%
5 16 mayo—22 mayo 80.5%
6 23 mayo—29 mayo 81% prn, det
7 30 mayo—5 junio 81.5%
8 6 junio—12 junio 82%
9 13 junio—19 junio 83%
10 20 junio—26 junio 84%
11 27 junio—3 julio 85% n 500
12 4 julio—10 julio 86%
13 11 junio—17 julio 87% vblex
14 18 julio—24 julio 87%
15 25 julio—31 julio 88% adj
16 1 agosto—7 agosto 89%
17 8 agosto—14 agosto 90% 2000
18 15 agosto—21 agosto 90%

Para calcular los numeros

Errors (calculate in apertium-srd-ita)
$ bash dev/testvoc/generation.sh srd-ita | wc -l 
$ bash dev/testvoc/generation.sh ita-srd | wc -l
Bidix (calculate in apertium-srd-ita)
$ cat apertium-srd-ita.srd-ita.dix | grep '<l' | wc -l
Trimmed coverage (calculate in apertium-srd-ita)
$ cat srd.crp.txt | apertium -d . srd-ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.trim.coverage.txt
$ calc `cat /tmp/srd.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.trim.coverage.txt | wc -l`
Raw coverage (calculate in apertium-srd, apertium-ita)
$ cat srd.crp.txt | apertium -d . srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.raw.coverage.txt
$ calc `cat /tmp/srd.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.raw.coverage.txt | wc -l`