Difference between revisions of "Sardo e italiano/Work plan"

From Apertium
Jump to navigation Jump to search
 
(127 intermediate revisions by 3 users not shown)
Line 5: Line 5:
Tareas:
Tareas:


* Convertir el corrector ortográfico en analizador <code>.dix</code> (= ~40k entradas)
* Convertir el corrector ortográfico en analizador <code>.dix</code> (= ~40k entradas)
: Se puede incluir código AGPL en un par de lenguas GPL? --[[User:Mlforcada|Mlforcada]] ([[User talk:Mlforcada|talk]]) 11:53, 28 June 2016 (CEST)
* Importar las palabras del glossario de la región (= 6425 entradas)
* Importar las palabras del glossario de la región (= 6425 entradas) https://svn.code.sf.net/p/apertium/svn/incubator/apertium-srd-ita/dev/glossariu.ita-srd.nospaces.txt
* <s>Crear un corpus de sardo LSC de [http://limbasnatziones.tempusnostru.it/home.page Limbas e natziones]</s> [http://ilazki.thinkgeek.co.uk/limbasnatziones.tar.gz descargar aquí]
* <s>Crear un corpus de sardo LSC de [http://limbasnatziones.tempusnostru.it/home.page Limbas e natziones]</s> [http://ilazki.thinkgeek.co.uk/limbasnatziones.tar.gz descargar aquí]
* Importar las palabras que quedan de [http://sslmitdev-online.sslmit.unibo.it/linguistics/morph-it.php Morph-it!]
* Importar las palabras que quedan de [http://sslmitdev-online.sslmit.unibo.it/linguistics/morph-it.php Morph-it!]
* Arreglar los enclíticos de verbos.
* Añadir ~15,000 palabras al diccionario bilingüe (para tener al menos 20k correspondencias LSC-italiano).
* Añadir ~15,000 palabras al diccionario bilingüe (para tener al menos 20k correspondencias LSC-italiano).
* Arreglar los nombres propios en el diccionario de italiano (se tiene que empezar desde cero creo.)
* Arreglar los nombres propios en el diccionario de italiano (se tiene que empezar desde cero creo.)
* Revisar entradas al bilingüe y monolingüe de sardo para que sigan LSC (categoria por categoria).
* Trabajar en reglas de transferencia
* Trabajar en reglas de transferencia
* Trabajar en reglas de desambiguación
* Trabajar en reglas de desambiguación
Line 31: Line 34:
| 0 || 11 abril&mdash;17 abril || 74% || || 350 || || 80.6 || 85.9 || 74.5 || 76.5 || 24.00 || 11.72 || 2,919 || || || ✓
| 0 || 11 abril&mdash;17 abril || 74% || || 350 || || 80.6 || 85.9 || 74.5 || 76.5 || 24.00 || 11.72 || 2,919 || || || ✓
|-
|-
| 1 || 18 abril&mdash;24 abril || 76% || || || || 80.6 || 85.9 || 77.6 || 77.6 || || || 5,255 || 107,989 || 58,804 ||
| 1 || 18 abril&mdash;24 abril || 76% || || || || 80.6 || 85.9 || 77.9 || 77.8 || || || 7,106 || 109,489 || 60,296 ||
|-
|-
| 2 || 25 abril&mdash;1 mayo || 78% || || || || || || || || || || || || ||
| 2 || 25 abril&mdash;1 mayo || 78% || || || || 82.9 || 87.1 || 80.3 || 78.6 || || || 10,606 || 380,825 || 49,697 ||
|-
|-
| 3 || 2 mayo&mdash;8 mayo || 80% || pr, cnj*, adv || 500 || || || || || || || || || || ||
| 3 || 2 mayo&mdash;8 mayo || 80% || pr, cnj*, adv || 500 || || 84.0 || 87.2 || 82.2 || 79.8 || 24.79 || 16.73 || 11,627 || 444,291 || 49,221 ||
|-
|-
| 4 || 9 mayo&mdash;15 mayo || 80% || || || || || || || || || || || || ||
| 4 || 9 mayo&mdash;15 mayo || 80% || || || || 85.8 || 88.2 || 82.3 || 81.1 || || || 11,778 || 467,068 || 149,773 ||
|-
|-
| 5 || 16 mayo&mdash;22 mayo || 80.5% || || || || || || || || || || || || ||
| 5 || 16 mayo&mdash;22 mayo || 80.5% || || || || 85.8 || 88.5 || 82.5 || 81.5 || || || 11,821 || 429,598 || 44,666 ||
|-
|-
| 6 || 23 mayo&mdash;29 mayo || 81% || prn, det || || || || || || || || || || || ||
| 6 || 23 mayo&mdash;29 mayo || 81% || prn, det || || || 85.8 || 88.5 || 82.5 || 81.5 || || || 11,725 || 376,283 || 7,936 ||
|-
|-
| 7 || 30 mayo&mdash;5 junio || 81.5% || || || || || || || || || || || || ||
| 7 || 30 mayo&mdash;5 junio || 81.5% || || || || 86.4 || 89.3 || 84.4 || 82.7 || || || 12,703 || 421,065 || ||
|-
|-
| 8 || 6 junio&mdash;12 junio || 82% || || || || || || || || || || || || ||
| 8 || 6 junio&mdash;12 junio || 82% || || || || 86.8 || 91.0 || 85.0 || 84.1 || || || 13,556 || 43,780 || ||
|-
|-
| 9 || 13 junio&mdash;19 junio || 83% || || || || || || || || || || || || ||
| 9 || 13 junio&mdash;19 junio || 83% || || || || 86.9 || 91.3 || 85.2 || 84.5 || || || 14,568 || 215,595 || 55,763 ||
|-
|-
| 10 || 20 junio&mdash;26 junio || 84% || || || || || || || || || || || || ||
| 10 || 20 junio&mdash;26 junio || 84% || || || || 86.9 || 91.3 || 85.2 || 84.5 || || || 16,471 || 147,160 || 11,039 ||
|-
|-
| 11 || 27 junio&mdash;3 julio || 85% || n || 500 || || || || || || || || || || ||
| 11 || 27 junio&mdash;3 julio || 85% || n || 500 || || 88.3 || 91.3 || 86.5 || 84.9 || 39.43 || 18.99 || 16,837 || || 10,524 ||
|-
|-
| 12 || 4 julio&mdash;10 julio || 86% || || || || || || || || || || || || ||
| 12 || 4 julio&mdash;10 julio || 86% || || || || 88.3 || 91.4 || 86.5 || 85.0 || || || 17,034 || 326,972 || 9,963 ||
|-
|-
| 13 || 11 junio&mdash;17 julio || 87% || vblex || || || || || || || || || || || ||
| 13 || 11 junio&mdash;17 julio || 87% || vblex || || || || 91.5 || || 85.2 || || || 17,348 || 204,266 || 377 ||
|-
|-
| <s>14</s> || <s>18 julio&mdash;24 julio</s> || 87% || || || || || || || || || || || || ||
| <s>14</s> || <s>18 julio&mdash;24 julio</s> || 87% || || || || 88.5 || 91.5 || 86.9 || 85.5 || || || 17,887 || 28,658 || 0 ||
|-
|-
| 13 || 25 junio&mdash;31 julio || 88% || adj || || || || || || || || || || || ||
| 15 || 25 julio&mdash;31 julio || 88% || adj || || || 88.4 || 91.6 || 87.6 || 87.6 || || || 23,095 || || 0 ||
|-
|-
| 14 || 1 agosto&mdash;7 agosto || 89% || || || || || || || || || || || || ||
| 16 || 1 agosto&mdash;7 agosto || 89% || || || || 88.5 || 91.6 || 87.6 || 87.9 || || || 23,952 || || ||
|-
|-
| 15 || 8 agosto&mdash;14 agosto || 90% || || 2000 || || || || || || || || || || ||
| 17 || 8 agosto&mdash;14 agosto || 90% || || || || || 91.6 || || 89.2 || || || 24,808 || || 71 ||
|-
|-
| 16 || 15 agosto&mdash;21 agosto || 90% || || || || || || || || || || || || ||
| 18 || 15 agosto&mdash;21 agosto || 90% || || 2000 || || 88.6 || 91.6 || 87.8 || 89.3 || || 10.71 || 25,484 || || 69 ||
|-
|-
|}
|}


===Para calcular los numeros===

;Errors (calculate in apertium-srd-ita)

<pre>
$ bash dev/testvoc/generation.sh srd-ita | wc -l
$ bash dev/testvoc/generation.sh ita-srd | wc -l
</pre>

;Bidix (calculate in apertium-srd-ita)

<pre>
$ cat apertium-srd-ita.srd-ita.dix | grep '<l' | wc -l
</pre>

;Trimmed coverage (calculate in apertium-srd-ita)

<pre>
$ cat srd.crp.txt | apertium -d . srd-ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.trim.coverage.txt
$ calc `cat /tmp/srd.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.trim.coverage.txt | wc -l`

$ cat ita.crp.txt | apertium -d . ita-srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/ita.trim.coverage.txt
$ calc `cat /tmp/ita.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/ita.trim.coverage.txt | wc -l`
</pre>

;Raw coverage (calculate in apertium-srd, apertium-ita)

<pre>
$ cat srd.crp.txt | apertium -d . srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.raw.coverage.txt
$ calc `cat /tmp/srd.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.raw.coverage.txt | wc -l`

$ cat ita.crp.txt | apertium -d . ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/ita.raw.coverage.txt
$ calc `cat /tmp/ita.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/ita.raw.coverage.txt | wc -l`
</pre>

;Para hacer un corpus reducido de italiano:

<pre>
wget https://dumps.wikimedia.org/itwiki/latest/itwiki-latest-pages-articles.xml.bz2
wget https://svn.code.sf.net/p/apertium/svn/trunk/apertium-tools/WikiExtractor.py
python3 WikiExtractor.py --infn itwiki-latest-pages-articles.xml.bz2 2>log
cat -n wiki.txt | grep -P '7\t' | cut -f2- > wiki.10pc.txt
</pre>





Latest revision as of 13:50, 18 August 2016

Personas:

  • Gianfranco, Adrià, Hèctor, Fran, Mikel

Tareas:

  • Convertir el corrector ortográfico en analizador .dix (= ~40k entradas)
Se puede incluir código AGPL en un par de lenguas GPL? --Mlforcada (talk) 11:53, 28 June 2016 (CEST)
  • Importar las palabras del glossario de la región (= 6425 entradas) https://svn.code.sf.net/p/apertium/svn/incubator/apertium-srd-ita/dev/glossariu.ita-srd.nospaces.txt
  • Crear un corpus de sardo LSC de Limbas e natziones descargar aquí
  • Importar las palabras que quedan de Morph-it!
  • Arreglar los enclíticos de verbos.
  • Añadir ~15,000 palabras al diccionario bilingüe (para tener al menos 20k correspondencias LSC-italiano).
  • Arreglar los nombres propios en el diccionario de italiano (se tiene que empezar desde cero creo.)
  • Revisar entradas al bilingüe y monolingüe de sardo para que sigan LSC (categoria por categoria).
  • Trabajar en reglas de transferencia
  • Trabajar en reglas de desambiguación
  • Trabajar en reglas de selección léxica
  • Compilar un pequeño corpus paralelo de LSC-italiano.
  • Hacer el testvoc.
  • Hacer una evaluación (artículos de Wikipedia).
  • Escribir artículo (Linguamática?, SEPLN?)


  • rendiment: approx. 1000 words/day bidix.

Plan semanal[edit]

Semana Fechas Cobertura Testvoc Eval. (%) cov. raw (%) cov. trimmed (%) WER Bidix Err. Cumplido ?
srd ita srd→ita ita→srd srd→ita ita→srd srd→ita ita→srd
0 11 abril—17 abril 74% 350 80.6 85.9 74.5 76.5 24.00 11.72 2,919
1 18 abril—24 abril 76% 80.6 85.9 77.9 77.8 7,106 109,489 60,296
2 25 abril—1 mayo 78% 82.9 87.1 80.3 78.6 10,606 380,825 49,697
3 2 mayo—8 mayo 80% pr, cnj*, adv 500 84.0 87.2 82.2 79.8 24.79 16.73 11,627 444,291 49,221
4 9 mayo—15 mayo 80% 85.8 88.2 82.3 81.1 11,778 467,068 149,773
5 16 mayo—22 mayo 80.5% 85.8 88.5 82.5 81.5 11,821 429,598 44,666
6 23 mayo—29 mayo 81% prn, det 85.8 88.5 82.5 81.5 11,725 376,283 7,936
7 30 mayo—5 junio 81.5% 86.4 89.3 84.4 82.7 12,703 421,065
8 6 junio—12 junio 82% 86.8 91.0 85.0 84.1 13,556 43,780
9 13 junio—19 junio 83% 86.9 91.3 85.2 84.5 14,568 215,595 55,763
10 20 junio—26 junio 84% 86.9 91.3 85.2 84.5 16,471 147,160 11,039
11 27 junio—3 julio 85% n 500 88.3 91.3 86.5 84.9 39.43 18.99 16,837 10,524
12 4 julio—10 julio 86% 88.3 91.4 86.5 85.0 17,034 326,972 9,963
13 11 junio—17 julio 87% vblex 91.5 85.2 17,348 204,266 377
14 18 julio—24 julio 87% 88.5 91.5 86.9 85.5 17,887 28,658 0
15 25 julio—31 julio 88% adj 88.4 91.6 87.6 87.6 23,095 0
16 1 agosto—7 agosto 89% 88.5 91.6 87.6 87.9 23,952
17 8 agosto—14 agosto 90% 91.6 89.2 24,808 71
18 15 agosto—21 agosto 90% 2000 88.6 91.6 87.8 89.3 10.71 25,484 69

Para calcular los numeros[edit]

Errors (calculate in apertium-srd-ita)
$ bash dev/testvoc/generation.sh srd-ita | wc -l 
$ bash dev/testvoc/generation.sh ita-srd | wc -l
Bidix (calculate in apertium-srd-ita)
$ cat apertium-srd-ita.srd-ita.dix | grep '<l' | wc -l
Trimmed coverage (calculate in apertium-srd-ita)
$ cat srd.crp.txt | apertium -d . srd-ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.trim.coverage.txt
$ calc `cat /tmp/srd.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.trim.coverage.txt | wc -l`

$ cat ita.crp.txt | apertium -d . ita-srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/ita.trim.coverage.txt
$ calc `cat /tmp/ita.trim.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/ita.trim.coverage.txt | wc -l`
Raw coverage (calculate in apertium-srd, apertium-ita)
$ cat srd.crp.txt | apertium -d . srd-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/srd.raw.coverage.txt
$ calc `cat /tmp/srd.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/srd.raw.coverage.txt | wc -l`

$ cat ita.crp.txt | apertium -d . ita-morph | sed 's/\$\W*\^/$\n^/g' > /tmp/ita.raw.coverage.txt
$ calc `cat /tmp/ita.raw.coverage.txt | grep -v '\*' | wc -l `/`cat /tmp/ita.raw.coverage.txt | wc -l`
Para hacer un corpus reducido de italiano
wget https://dumps.wikimedia.org/itwiki/latest/itwiki-latest-pages-articles.xml.bz2
wget https://svn.code.sf.net/p/apertium/svn/trunk/apertium-tools/WikiExtractor.py
python3 WikiExtractor.py --infn itwiki-latest-pages-articles.xml.bz2 2>log 
cat -n wiki.txt | grep -P '7\t' | cut -f2- > wiki.10pc.txt