Difference between revisions of "Sardo e italiano/Work plan"
Jump to navigation
Jump to search
Hectoralos (talk | contribs) |
|||
(131 intermediate revisions by 3 users not shown) | |||
Line 5: | Line 5: | ||
Tareas: |
Tareas: |
||
* Convertir el corrector ortográfico en analizador <code>.dix</code> (= ~40k entradas) |
* Convertir el corrector ortográfico en analizador <code>.dix</code> (= ~40k entradas) |
||
: Se puede incluir código AGPL en un par de lenguas GPL? --[[User:Mlforcada|Mlforcada]] ([[User talk:Mlforcada|talk]]) 11:53, 28 June 2016 (CEST) |
|||
* Importar las palabras del glossario de la región (= 6425 entradas) |
* Importar las palabras del glossario de la región (= 6425 entradas) https://svn.code.sf.net/p/apertium/svn/incubator/apertium-srd-ita/dev/glossariu.ita-srd.nospaces.txt |
||
* <s>Crear un corpus de sardo LSC de [http://limbasnatziones.tempusnostru.it/home.page Limbas e natziones]</s> [http://ilazki.thinkgeek.co.uk/limbasnatziones.tar.gz descargar aquí] |
* <s>Crear un corpus de sardo LSC de [http://limbasnatziones.tempusnostru.it/home.page Limbas e natziones]</s> [http://ilazki.thinkgeek.co.uk/limbasnatziones.tar.gz descargar aquí] |
||
* Importar las palabras que quedan de [http://sslmitdev-online.sslmit.unibo.it/linguistics/morph-it.php Morph-it!] |
* Importar las palabras que quedan de [http://sslmitdev-online.sslmit.unibo.it/linguistics/morph-it.php Morph-it!] |
||
* Arreglar los enclíticos de verbos. |
|||
* Añadir ~15,000 palabras al diccionario bilingüe (para tener al menos 20k correspondencias LSC-italiano). |
* Añadir ~15,000 palabras al diccionario bilingüe (para tener al menos 20k correspondencias LSC-italiano). |
||
* Arreglar los nombres propios en el diccionario de italiano (se tiene que empezar desde cero creo.) |
* Arreglar los nombres propios en el diccionario de italiano (se tiene que empezar desde cero creo.) |
||
* Revisar entradas al bilingüe y monolingüe de sardo para que sigan LSC (categoria por categoria). |
|||
* Trabajar en reglas de transferencia |
* Trabajar en reglas de transferencia |
||
* Trabajar en reglas de desambiguación |
* Trabajar en reglas de desambiguación |
||
Line 25: | Line 28: | ||
{|class=wikitable |
{|class=wikitable |
||
!rowspan=2| Semana !!rowspan=2| Fechas !!rowspan=2| Cobertura !!rowspan=2| Testvoc !!rowspan=2| |
!rowspan=2| Semana !!rowspan=2| Fechas !!rowspan=2| Cobertura !!rowspan=2| Testvoc !!rowspan=2| Eval. !!rowspan=2| !!colspan=2| (%) cov. raw !!colspan=2| (%) cov. trimmed !!colspan=2| (%) WER !!rowspan=2| Bidix !!colspan=2| Err. !!rowspan=2| Cumplido ? |
||
|- |
|- |
||
! srd !! ita !! srd→ita !! ita→srd !! srd→ita !! ita→srd |
! srd !! ita !! srd→ita !! ita→srd !! srd→ita !! ita→srd !! srd→ita !! ita→srd |
||
|- |
|- |
||
| 0 || 11 abril—17 abril || |
| 0 || 11 abril—17 abril || 74% || || 350 || || 80.6 || 85.9 || 74.5 || 76.5 || 24.00 || 11.72 || 2,919 || || || ✓ |
||
|- |
|- |
||
| 1 || 18 abril—24 abril || |
| 1 || 18 abril—24 abril || 76% || || || || 80.6 || 85.9 || 77.9 || 77.8 || || || 7,106 || 109,489 || 60,296 || ✓ |
||
|- |
|- |
||
| 2 || 25 abril—1 mayo || 78% || || |
| 2 || 25 abril—1 mayo || 78% || || || || 82.9 || 87.1 || 80.3 || 78.6 || || || 10,606 || 380,825 || 49,697 || ✓ |
||
|- |
|- |
||
| 3 || 2 mayo—8 mayo || 80% || pr, cnj*, adv || 500 |
| 3 || 2 mayo—8 mayo || 80% || pr, cnj*, adv || 500 || || 84.0 || 87.2 || 82.2 || 79.8 || 24.79 || 16.73 || 11,627 || 444,291 || 49,221 || ✓ |
||
|- |
|- |
||
| 4 || 9 mayo—15 mayo || 80% || || |
| 4 || 9 mayo—15 mayo || 80% || || || || 85.8 || 88.2 || 82.3 || 81.1 || || || 11,778 || 467,068 || 149,773 || ✓ |
||
|- |
|- |
||
| 5 || 16 mayo—22 mayo || 80.5% || || |
| 5 || 16 mayo—22 mayo || 80.5% || || || || 85.8 || 88.5 || 82.5 || 81.5 || || || 11,821 || 429,598 || 44,666 || ✓ |
||
|- |
|- |
||
| 6 || 23 mayo—29 mayo || 81% || |
| 6 || 23 mayo—29 mayo || 81% || prn, det || || || 85.8 || 88.5 || 82.5 || 81.5 || || || 11,725 || 376,283 || 7,936 || |
||
|- |
|- |
||
| 7 || 30 mayo—5 junio || 81.5% || || |
| 7 || 30 mayo—5 junio || 81.5% || || || || 86.4 || 89.3 || 84.4 || 82.7 || || || 12,703 || 421,065 || || |
||
|- |
|- |
||
| 8 || 6 junio—12 junio || 82% || || |
| 8 || 6 junio—12 junio || 82% || || || || 86.8 || 91.0 || 85.0 || 84.1 || || || 13,556 || 43,780 || || |
||
|- |
|- |
||
| 9 || 13 junio—19 junio || 83% || || |
| 9 || 13 junio—19 junio || 83% || || || || 86.9 || 91.3 || 85.2 || 84.5 || || || 14,568 || 215,595 || 55,763 || |
||
|- |
|- |
||
| 10 || 20 junio—26 junio || 84% || || |
| 10 || 20 junio—26 junio || 84% || || || || 86.9 || 91.3 || 85.2 || 84.5 || || || 16,471 || 147,160 || 11,039 || |
||
|- |
|- |
||
| 11 || 27 junio—3 julio || 85% || n |
| 11 || 27 junio—3 julio || 85% || n || 500 || || 88.3 || 91.3 || 86.5 || 84.9 || 39.43 || 18.99 || 16,837 || || 10,524 || |
||
|- |
|- |
||
| 12 || 4 julio—10 julio || 86% || || |
| 12 || 4 julio—10 julio || 86% || || || || 88.3 || 91.4 || 86.5 || 85.0 || || || 17,034 || 326,972 || 9,963 || |
||
|- |
|- |
||
| 13 || 11 junio—17 julio || 87% || |
| 13 || 11 junio—17 julio || 87% || vblex || || || || 91.5 || || 85.2 || || || 17,348 || 204,266 || 377 || |
||
|- |
|- |
||
| <s>14</s> || <s>18 julio—24 julio</s> || 87% || |
| <s>14</s> || <s>18 julio—24 julio</s> || 87% || || || || 88.5 || 91.5 || 86.9 || 85.5 || || || 17,887 || 28,658 || 0 || |
||
|- |
|- |
||
| |
| 15 || 25 julio—31 julio || 88% || adj || || || 88.4 || 91.6 || 87.6 || 87.6 || || || 23,095 || || 0 || |
||
|- |
|- |
||
| |
| 16 || 1 agosto—7 agosto || 89% || || || || 88.5 || 91.6 || 87.6 || 87.9 || || || 23,952 || || || |
||
|- |
|- |
||
| |
| 17 || 8 agosto—14 agosto || 90% || || || || || 91.6 || || 89.2 || || || 24,808 || || 71 || |
||
|- |
|- |
||
| |
| 18 || 15 agosto—21 agosto || 90% || || 2000 || || 88.6 || 91.6 || 87.8 || 89.3 || || 10.71 || 25,484 || || 69 || |
||
|- |
|- |
||
|} |
|} |
||
===Para calcular los numeros=== |
|||
;Errors (calculate in apertium-srd-ita) |
|||
<pre> |
|||
$ bash dev/testvoc/generation.sh srd-ita | wc -l |
|||
$ bash dev/testvoc/generation.sh ita-srd | wc -l |
|||
</pre> |
|||
;Bidix (calculate in apertium-srd-ita) |
|||
<pre> |
|||
$ cat apertium-srd-ita.srd-ita.dix | grep '<l' | wc -l |
|||
</pre> |
|||
;Trimmed coverage (calculate in apertium-srd-ita) |
|||
<pre> |
|||
$ cat srd.crp.txt | apertium -d . srd-ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.trim.coverage.txt |
|||
$ calc `cat /tmp/srd.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.trim.coverage.txt | wc -l` |
|||
$ cat ita.crp.txt | apertium -d . ita-srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/ita.trim.coverage.txt |
|||
$ calc `cat /tmp/ita.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/ita.trim.coverage.txt | wc -l` |
|||
</pre> |
|||
;Raw coverage (calculate in apertium-srd, apertium-ita) |
|||
<pre> |
|||
$ cat srd.crp.txt | apertium -d . srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.raw.coverage.txt |
|||
$ calc `cat /tmp/srd.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.raw.coverage.txt | wc -l` |
|||
$ cat ita.crp.txt | apertium -d . ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/ita.raw.coverage.txt |
|||
$ calc `cat /tmp/ita.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/ita.raw.coverage.txt | wc -l` |
|||
</pre> |
|||
;Para hacer un corpus reducido de italiano: |
|||
<pre> |
|||
wget https://dumps.wikimedia.org/itwiki/latest/itwiki-latest-pages-articles.xml.bz2 |
|||
wget https://svn.code.sf.net/p/apertium/svn/trunk/apertium-tools/WikiExtractor.py |
|||
python3 WikiExtractor.py --infn itwiki-latest-pages-articles.xml.bz2 2>log |
|||
cat -n wiki.txt | grep -P '7\t' | cut -f2- > wiki.10pc.txt |
|||
</pre> |
|||
Latest revision as of 13:50, 18 August 2016
Personas:
- Gianfranco, Adrià, Hèctor, Fran, Mikel
Tareas:
- Convertir el corrector ortográfico en analizador
.dix
(= ~40k entradas)
- Se puede incluir código AGPL en un par de lenguas GPL? --Mlforcada (talk) 11:53, 28 June 2016 (CEST)
- Importar las palabras del glossario de la región (= 6425 entradas) https://svn.code.sf.net/p/apertium/svn/incubator/apertium-srd-ita/dev/glossariu.ita-srd.nospaces.txt
Crear un corpus de sardo LSC de Limbas e natzionesdescargar aquí- Importar las palabras que quedan de Morph-it!
- Arreglar los enclíticos de verbos.
- Añadir ~15,000 palabras al diccionario bilingüe (para tener al menos 20k correspondencias LSC-italiano).
- Arreglar los nombres propios en el diccionario de italiano (se tiene que empezar desde cero creo.)
- Revisar entradas al bilingüe y monolingüe de sardo para que sigan LSC (categoria por categoria).
- Trabajar en reglas de transferencia
- Trabajar en reglas de desambiguación
- Trabajar en reglas de selección léxica
- Compilar un pequeño corpus paralelo de LSC-italiano.
- Hacer el testvoc.
- Hacer una evaluación (artículos de Wikipedia).
- Escribir artículo (Linguamática?, SEPLN?)
- rendiment: approx. 1000 words/day bidix.
Plan semanal[edit]
Semana | Fechas | Cobertura | Testvoc | Eval. | (%) cov. raw | (%) cov. trimmed | (%) WER | Bidix | Err. | Cumplido ? | |||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
srd | ita | srd→ita | ita→srd | srd→ita | ita→srd | srd→ita | ita→srd | ||||||||
0 | 11 abril—17 abril | 74% | 350 | 80.6 | 85.9 | 74.5 | 76.5 | 24.00 | 11.72 | 2,919 | ✓ | ||||
1 | 18 abril—24 abril | 76% | 80.6 | 85.9 | 77.9 | 77.8 | 7,106 | 109,489 | 60,296 | ✓ | |||||
2 | 25 abril—1 mayo | 78% | 82.9 | 87.1 | 80.3 | 78.6 | 10,606 | 380,825 | 49,697 | ✓ | |||||
3 | 2 mayo—8 mayo | 80% | pr, cnj*, adv | 500 | 84.0 | 87.2 | 82.2 | 79.8 | 24.79 | 16.73 | 11,627 | 444,291 | 49,221 | ✓ | |
4 | 9 mayo—15 mayo | 80% | 85.8 | 88.2 | 82.3 | 81.1 | 11,778 | 467,068 | 149,773 | ✓ | |||||
5 | 16 mayo—22 mayo | 80.5% | 85.8 | 88.5 | 82.5 | 81.5 | 11,821 | 429,598 | 44,666 | ✓ | |||||
6 | 23 mayo—29 mayo | 81% | prn, det | 85.8 | 88.5 | 82.5 | 81.5 | 11,725 | 376,283 | 7,936 | |||||
7 | 30 mayo—5 junio | 81.5% | 86.4 | 89.3 | 84.4 | 82.7 | 12,703 | 421,065 | |||||||
8 | 6 junio—12 junio | 82% | 86.8 | 91.0 | 85.0 | 84.1 | 13,556 | 43,780 | |||||||
9 | 13 junio—19 junio | 83% | 86.9 | 91.3 | 85.2 | 84.5 | 14,568 | 215,595 | 55,763 | ||||||
10 | 20 junio—26 junio | 84% | 86.9 | 91.3 | 85.2 | 84.5 | 16,471 | 147,160 | 11,039 | ||||||
11 | 27 junio—3 julio | 85% | n | 500 | 88.3 | 91.3 | 86.5 | 84.9 | 39.43 | 18.99 | 16,837 | 10,524 | |||
12 | 4 julio—10 julio | 86% | 88.3 | 91.4 | 86.5 | 85.0 | 17,034 | 326,972 | 9,963 | ||||||
13 | 11 junio—17 julio | 87% | vblex | 91.5 | 85.2 | 17,348 | 204,266 | 377 | |||||||
87% | 88.5 | 91.5 | 86.9 | 85.5 | 17,887 | 28,658 | 0 | ||||||||
15 | 25 julio—31 julio | 88% | adj | 88.4 | 91.6 | 87.6 | 87.6 | 23,095 | 0 | ||||||
16 | 1 agosto—7 agosto | 89% | 88.5 | 91.6 | 87.6 | 87.9 | 23,952 | ||||||||
17 | 8 agosto—14 agosto | 90% | 91.6 | 89.2 | 24,808 | 71 | |||||||||
18 | 15 agosto—21 agosto | 90% | 2000 | 88.6 | 91.6 | 87.8 | 89.3 | 10.71 | 25,484 | 69 |
Para calcular los numeros[edit]
- Errors (calculate in apertium-srd-ita)
$ bash dev/testvoc/generation.sh srd-ita | wc -l $ bash dev/testvoc/generation.sh ita-srd | wc -l
- Bidix (calculate in apertium-srd-ita)
$ cat apertium-srd-ita.srd-ita.dix | grep '<l' | wc -l
- Trimmed coverage (calculate in apertium-srd-ita)
$ cat srd.crp.txt | apertium -d . srd-ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.trim.coverage.txt $ calc `cat /tmp/srd.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.trim.coverage.txt | wc -l` $ cat ita.crp.txt | apertium -d . ita-srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/ita.trim.coverage.txt $ calc `cat /tmp/ita.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/ita.trim.coverage.txt | wc -l`
- Raw coverage (calculate in apertium-srd, apertium-ita)
$ cat srd.crp.txt | apertium -d . srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.raw.coverage.txt $ calc `cat /tmp/srd.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.raw.coverage.txt | wc -l` $ cat ita.crp.txt | apertium -d . ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/ita.raw.coverage.txt $ calc `cat /tmp/ita.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/ita.raw.coverage.txt | wc -l`
- Para hacer un corpus reducido de italiano
wget https://dumps.wikimedia.org/itwiki/latest/itwiki-latest-pages-articles.xml.bz2 wget https://svn.code.sf.net/p/apertium/svn/trunk/apertium-tools/WikiExtractor.py python3 WikiExtractor.py --infn itwiki-latest-pages-articles.xml.bz2 2>log cat -n wiki.txt | grep -P '7\t' | cut -f2- > wiki.10pc.txt