Difference between revisions of "Sardo e italiano/Work plan"
Jump to navigation
Jump to search
Line 35: | Line 35: | ||
| 1 || 18 abril—24 abril || 76% || || || || 80.6 || 85.9 || 77.9 || 77.8 || || || 7,106 || 109,489 || 60,296 || ✓ |
| 1 || 18 abril—24 abril || 76% || || || || 80.6 || 85.9 || 77.9 || 77.8 || || || 7,106 || 109,489 || 60,296 || ✓ |
||
|- |
|- |
||
| 2 || 25 abril—1 mayo || 78% || || || || 82.9 || |
| 2 || 25 abril—1 mayo || 78% || || || || 82.9 || 87.1 || 80.3 || || || || 10,606 || 380,825 || 49,697 || ✓ |
||
|- |
|- |
||
| 3 || 2 mayo—8 mayo || 80% || pr, cnj*, adv || 500 || || || || || || || || || || || |
| 3 || 2 mayo—8 mayo || 80% || pr, cnj*, adv || 500 || || || || || || || || || || || |
Revision as of 20:35, 2 May 2016
Personas:
- Gianfranco, Adrià, Hèctor, Fran, Mikel
Tareas:
- Convertir el corrector ortográfico en analizador
.dix
(= ~40k entradas) - Importar las palabras del glossario de la región (= 6425 entradas)
Crear un corpus de sardo LSC de Limbas e natzionesdescargar aquí- Importar las palabras que quedan de Morph-it!
- Arreglar los enclíticos de verbos.
- Añadir ~15,000 palabras al diccionario bilingüe (para tener al menos 20k correspondencias LSC-italiano).
- Arreglar los nombres propios en el diccionario de italiano (se tiene que empezar desde cero creo.)
- Revisar entradas al bilingüe y monolingüe de sardo para que se sigan LSC (categoria por categoria).
- Trabajar en reglas de transferencia
- Trabajar en reglas de desambiguación
- Trabajar en reglas de selección léxica
- Compilar un pequeño corpus paralelo de LSC-italiano.
- Hacer el testvoc.
- Hacer una evaluación (artículos de Wikipedia).
- Escribir artículo (Linguamática?, SEPLN?)
- rendiment: approx. 1000 words/day bidix.
Plan semanal
Semana | Fechas | Cobertura | Testvoc | Eval. | (%) cov. raw | (%) cov. trimmed | (%) WER | Bidix | Err. | Cumplido ? | |||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
srd | ita | srd→ita | ita→srd | srd→ita | ita→srd | srd→ita | ita→srd | ||||||||
0 | 11 abril—17 abril | 74% | 350 | 80.6 | 85.9 | 74.5 | 76.5 | 24.00 | 11.72 | 2,919 | ✓ | ||||
1 | 18 abril—24 abril | 76% | 80.6 | 85.9 | 77.9 | 77.8 | 7,106 | 109,489 | 60,296 | ✓ | |||||
2 | 25 abril—1 mayo | 78% | 82.9 | 87.1 | 80.3 | 10,606 | 380,825 | 49,697 | ✓ | ||||||
3 | 2 mayo—8 mayo | 80% | pr, cnj*, adv | 500 | |||||||||||
4 | 9 mayo—15 mayo | 80% | |||||||||||||
5 | 16 mayo—22 mayo | 80.5% | |||||||||||||
6 | 23 mayo—29 mayo | 81% | prn, det | ||||||||||||
7 | 30 mayo—5 junio | 81.5% | |||||||||||||
8 | 6 junio—12 junio | 82% | |||||||||||||
9 | 13 junio—19 junio | 83% | |||||||||||||
10 | 20 junio—26 junio | 84% | |||||||||||||
11 | 27 junio—3 julio | 85% | n | 500 | |||||||||||
12 | 4 julio—10 julio | 86% | |||||||||||||
13 | 11 junio—17 julio | 87% | vblex | ||||||||||||
87% | |||||||||||||||
15 | 25 julio—31 julio | 88% | adj | ||||||||||||
16 | 1 agosto—7 agosto | 89% | |||||||||||||
17 | 8 agosto—14 agosto | 90% | 2000 | ||||||||||||
18 | 15 agosto—21 agosto | 90% |
Para calcular los numeros
- Errors (calculate in apertium-srd-ita)
$ bash dev/testvoc/generation.sh srd-ita | wc -l $ bash dev/testvoc/generation.sh ita-srd | wc -l
- Bidix (calculate in apertium-srd-ita)
$ cat apertium-srd-ita.srd-ita.dix | grep '<l' | wc -l
- Trimmed coverage (calculate in apertium-srd-ita)
$ cat srd.crp.txt | apertium -d . srd-ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.trim.coverage.txt $ calc `cat /tmp/srd.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.trim.coverage.txt | wc -l`
- Raw coverage (calculate in apertium-srd, apertium-ita)
$ cat srd.crp.txt | apertium -d . srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.raw.coverage.txt $ calc `cat /tmp/srd.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.raw.coverage.txt | wc -l`