Sardo e italiano/Work plan
Jump to navigation
Jump to search
Personas:
- Gianfranco, Adrià, Hèctor, Fran, Mikel
Tareas:
- Convertir el corrector ortográfico en analizador
.dix
(= ~40k entradas)
- Se puede incluir código AGPL en un par de lenguas GPL? --Mlforcada (talk) 11:53, 28 June 2016 (CEST)
- Importar las palabras del glossario de la región (= 6425 entradas) https://svn.code.sf.net/p/apertium/svn/incubator/apertium-srd-ita/dev/glossariu.ita-srd.nospaces.txt
Crear un corpus de sardo LSC de Limbas e natzionesdescargar aquí- Importar las palabras que quedan de Morph-it!
- Arreglar los enclíticos de verbos.
- Añadir ~15,000 palabras al diccionario bilingüe (para tener al menos 20k correspondencias LSC-italiano).
- Arreglar los nombres propios en el diccionario de italiano (se tiene que empezar desde cero creo.)
- Revisar entradas al bilingüe y monolingüe de sardo para que sigan LSC (categoria por categoria).
- Trabajar en reglas de transferencia
- Trabajar en reglas de desambiguación
- Trabajar en reglas de selección léxica
- Compilar un pequeño corpus paralelo de LSC-italiano.
- Hacer el testvoc.
- Hacer una evaluación (artículos de Wikipedia).
- Escribir artículo (Linguamática?, SEPLN?)
- rendiment: approx. 1000 words/day bidix.
Plan semanal
Semana | Fechas | Cobertura | Testvoc | Eval. | (%) cov. raw | (%) cov. trimmed | (%) WER | Bidix | Err. | Cumplido ? | |||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
srd | ita | srd→ita | ita→srd | srd→ita | ita→srd | srd→ita | ita→srd | ||||||||
0 | 11 abril—17 abril | 74% | 350 | 80.6 | 85.9 | 74.5 | 76.5 | 24.00 | 11.72 | 2,919 | ✓ | ||||
1 | 18 abril—24 abril | 76% | 80.6 | 85.9 | 77.9 | 77.8 | 7,106 | 109,489 | 60,296 | ✓ | |||||
2 | 25 abril—1 mayo | 78% | 82.9 | 87.1 | 80.3 | 78.6 | 10,606 | 380,825 | 49,697 | ✓ | |||||
3 | 2 mayo—8 mayo | 80% | pr, cnj*, adv | 500 | 84.0 | 87.2 | 82.2 | 79.8 | 24.79 | 16.73 | 11,627 | 444,291 | 49,221 | ✓ | |
4 | 9 mayo—15 mayo | 80% | 85.8 | 88.2 | 82.3 | 81.1 | 11,778 | 467,068 | 149,773 | ✓ | |||||
5 | 16 mayo—22 mayo | 80.5% | 85.8 | 88.5 | 82.5 | 81.5 | 11,821 | 429,598 | 44,666 | ✓ | |||||
6 | 23 mayo—29 mayo | 81% | prn, det | 85.8 | 88.5 | 82.5 | 81.5 | 11,725 | 376,283 | 7,936 | |||||
7 | 30 mayo—5 junio | 81.5% | 86.4 | 89.3 | 84.4 | 82.7 | 12,703 | 421,065 | |||||||
8 | 6 junio—12 junio | 82% | 86.8 | 91.0 | 85.0 | 84.1 | 13,556 | 43,780 | |||||||
9 | 13 junio—19 junio | 83% | 86.9 | 91.3 | 85.2 | 84.5 | 14,568 | 215,595 | 55,763 | ||||||
10 | 20 junio—26 junio | 84% | 86.9 | 91.3 | 85.2 | 84.5 | 16,471 | 147,160 | 11,039 | ||||||
11 | 27 junio—3 julio | 85% | n | 500 | 10,858 | ||||||||||
12 | 4 julio—10 julio | 86% | |||||||||||||
13 | 11 junio—17 julio | 87% | vblex | ||||||||||||
87% | |||||||||||||||
15 | 25 julio—31 julio | 88% | adj | ||||||||||||
16 | 1 agosto—7 agosto | 89% | |||||||||||||
17 | 8 agosto—14 agosto | 90% | 2000 | ||||||||||||
18 | 15 agosto—21 agosto | 90% |
Para calcular los numeros
- Errors (calculate in apertium-srd-ita)
$ bash dev/testvoc/generation.sh srd-ita | wc -l $ bash dev/testvoc/generation.sh ita-srd | wc -l
- Bidix (calculate in apertium-srd-ita)
$ cat apertium-srd-ita.srd-ita.dix | grep '<l' | wc -l
- Trimmed coverage (calculate in apertium-srd-ita)
$ cat srd.crp.txt | apertium -d . srd-ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.trim.coverage.txt $ calc `cat /tmp/srd.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.trim.coverage.txt | wc -l` $ cat ita.crp.txt | apertium -d . ita-srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/ita.trim.coverage.txt $ calc `cat /tmp/ita.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/ita.trim.coverage.txt | wc -l`
- Raw coverage (calculate in apertium-srd, apertium-ita)
$ cat srd.crp.txt | apertium -d . srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.raw.coverage.txt $ calc `cat /tmp/srd.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.raw.coverage.txt | wc -l` $ cat ita.crp.txt | apertium -d . ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/ita.raw.coverage.txt $ calc `cat /tmp/ita.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/ita.raw.coverage.txt | wc -l`
- Para hacer un corpus reducido de italiano
wget https://dumps.wikimedia.org/itwiki/latest/itwiki-latest-pages-articles.xml.bz2 wget https://svn.code.sf.net/p/apertium/svn/trunk/apertium-tools/WikiExtractor.py python3 WikiExtractor.py --infn itwiki-latest-pages-articles.xml.bz2 2>log cat -n wiki.txt | grep -P '7\t' | cut -f2- > wiki.10pc.txt