Difference between revisions of "User:Capsot/GSOC 2018 Occitan French"

From Apertium
Jump to navigation Jump to search
m
 
(15 intermediate revisions by the same user not shown)
Line 2: Line 2:
Vaquí en seguida un bilanç somari de l'elaboracion del traductor occitan-francés/francés-occitan per ieu, [[User:Capsot|Claudi Balaguer/Capsot]], jos la direccion e guidança d'[[User:Hectoralos|Hèctor Alòs i Font]] durant l'annada 2018 dins l'encastre del programa [https://summerofcode.withgoogle.com/ Google Summer of Code].
Vaquí en seguida un bilanç somari de l'elaboracion del traductor occitan-francés/francés-occitan per ieu, [[User:Capsot|Claudi Balaguer/Capsot]], jos la direccion e guidança d'[[User:Hectoralos|Hèctor Alòs i Font]] durant l'annada 2018 dins l'encastre del programa [https://summerofcode.withgoogle.com/ Google Summer of Code].


[[User:Capsot/GSOC_2018_Data |All the Data/Totas las donadas]]
==Los enviaments (Commits)==
==Los enviaments (Commits)==
Dins lo ligam seguent podètz dobrir una pagina que permet d’accedir als divèrses enviaments que faguèri sus GitHub durant aquel periòde dins los tres depauses (majoritàriament dins lo diccionari bilingue pasmens): https://apertium.projectjj.com/gsoc2018/capsot/capsot.html
Dins lo ligam seguent podètz dobrir una pagina que permet d’accedir als divèrses enviaments que faguèri sus GitHub durant aquel periòde dins los tres depauses (majoritàriament dins lo diccionari bilingue pasmens): https://apertium.projectjj.com/gsoc2018/capsot/capsot.html

Se pòdon telecargar en format tar.gz aicí: https://apertium.projectjj.com/gsoc2018/capsot.tar.gz.

E aicí los enviaments se pòdon telecargar tanben en zip: https://apertium.projectjj.com/gsoc2018/capsot.zip.


== Plan de trabalh ==
== Plan de trabalh ==
Line 10: Line 15:
== Descripcion e ossamenta del projècte ==
== Descripcion e ossamenta del projècte ==
=== Istoric ===
=== Istoric ===
Lo projècte s'inscriu coma una mena de continuacion, o dins una cèrta mesura l’eiretièr, del trabalh ja mes en plaça per Gema Ramírez Sánchez, Carme Armentano e divèrses membres e estructuras de l'Universitat d'Alacant en 2007-2008 amb la collaboracion del Conselh Generau d’Aran (Comission del Traductor; mai d'informacion: [[https://www.yumpu.com/es/document/view/22948938/er-apart-dera-comission-linga-1-4-istica-en-projacte-deth-traductor-]]Comission del Traductor), valent a dire un traductor automatic occitan/catalan e occitan/espanhòl amb la possibilitat tanben d’emplegar la modalitat aranesa en luòga de l’occitan estandard.
Lo projècte s'inscriu coma una mena de continuacion, o dins una cèrta mesura l’eiretièr, del trabalh ja mes en plaça per Gema Ramírez Sánchez, Carme Armentano e divèrses membres e estructuras de l'Universitat d'Alacant en 2007-2008 amb la collaboracion del Conselh Generau d’Aran (Comission del Traductor; mai d'informacion: [https://www.yumpu.com/es/document/view/22948938/er-apart-dera-comission-linga-1-4-istica-en-projacte-deth-traductor-]), valent a dire un traductor automatic occitan/catalan e occitan/espanhòl amb la possibilitat tanben d’emplegar la modalitat aranesa en luòga de l’occitan estandard.


===L’elaboracion===
===L’elaboracion===
Ai començat a trabalhar sul diccionari bilingue qu’èra estat ja en part emplenat automaticament per [[User:Francis_Tyers|Francis Tyers]] amb qualques intervencions prealablas a mon arribada de [[User:Xavivars|Xavi Ivars]], Sushain Cherivirala, e evidentament de mon mentor, H. Alòs. Comptava a la debuta aperaquí 5.700 lèmas per arribar finalament 26.908 al 5 d’agost, valent a dire, un pauc mai de 3.000 mots en dessús de çò qu’èra previst inicialament (23.500).
Ai començat a trabalhar sul diccionari bilingue qu’èra estat ja en part emplenat automaticament per [[User:Francis_Tyers|Francis Tyers]] amb qualques intervencions prealablas a mon arribada de [[User:Xavivars|Xavi Ivars]], [[User:Sushain|Sushain Cherivirala]], e evidentament de mon mentor, H. Alòs. Comptava a la debuta aperaquí 5.700 lèmas per arribar finalament 26.908 al 5 d’agost, valent a dire, un pauc mai de 3.000 mots en dessús de çò qu’èra previst inicialament (23.500).


Dins lo cors del trabalh ai rescontrat fòrça problèmas tecnics, deguts probablament a una installacion deficienta de ma VirtualBox sus mon ordinador. Gràcias a l’ajuda de divèrsas personas coma mon mentor, e tanben de [[User:shardulc|Shardul Chiplunkar]] (shardulc; धन्यवाद), [[User:Jacob_Nordfalk|Jacob Nordfalk]] (JacobEo), [[User:Tino_Didriksen|Tino Didriksen]] e [[User:Ilnar.salimzyan |Ilnar Salimzianov]] (selimcan; Räxmät) avèm pogut avançar e progressar a bon ritme malgrat aquelas empachas.
Dins lo cors del trabalh ai rescontrat fòrça problèmas tecnics, deguts probablament a una installacion deficienta de ma VirtualBox sus mon ordinador. Gràcias a l’ajuda de divèrsas personas coma mon mentor, e tanben de [[User:shardulc|Shardul Chiplunkar]] (shardulc; धन्यवाद), [[User:Jacob_Nordfalk|Jacob Nordfalk]] (JacobEo), [[User:Tino_Didriksen|Tino Didriksen]] e [[User:Ilnar.salimzyan |Ilnar Salimzianov]] (selimcan; Räxmät) avèm pogut avançar e progressar a bon ritme malgrat aquelas empachas. Cal citar tanben Ferriol Macip (que nos a fach arribar lo còrpus de [https://www.jornalet.com/ ''Jornalet''] e nos n'a autorizat l'emplec) e Joan Marc Leclercq que nos an portat una ajuda preciosa dins lo domeni de la lenga occitana e sa variacion dialectala.


Un autre problèma es estat la confrontacion a una granda varietat de mots d’origina dialectala divèrsa amb mai d’una traduccion. Calguèt classificar a despart los mots gascons (e araneses) amb una etiqueta particulara e marcar amb LR (o RL) las formas segondàrias (dialectalas o de traduccion mai complèxa). Aprèp la neteja iniciala, avèm utilizat lo Wiktionnaire per obtenir de traduccions de paraules, que foguèron revisadas sistematicament e apondudas al bidix. Puèi, s'es procedit a l’introduccion de mots a partir de listas de mots qu'avián pas encara de traduccion en occitan e foguèron ordenats segon un òrdre invèrs de frequéncia, en utilizar la Wikipédia francesa coma còrpus. Del costat occitan, la qualitat de la Wikipèdia essent mai flaca, es subretot lo jornal electronic Jornalet qu’a servit de basa de donadas per la bastison de las aisinas de revirada.
Un autre problèma es estat la confrontacion a una granda varietat de mots d’origina dialectala divèrsa amb mai d’una traduccion. Calguèt classificar a despart los mots gascons (e araneses) amb una etiqueta particulara e marcar amb LR (o RL) las formas segondàrias (dialectalas o de traduccion mai complèxa). Aprèp la neteja iniciala, avèm utilizat lo Wiktionnaire per obtenir de traduccions de paraules, que foguèron revisadas sistematicament e apondudas al bidix. Puèi, s'es procedit a l’introduccion de mots a partir de listas de mots qu'avián pas encara de traduccion en occitan e foguèron ordenats segon un òrdre invèrs de frequéncia, en utilizar la Wikipédia francesa coma còrpus. Del costat occitan, la qualitat de la Wikipèdia essent mai flaca, es subretot lo jornal electronic Jornalet qu’a servit de basa de donadas per la bastison de las aisinas de revirada.
Line 41: Line 46:
Los resultats de las avaloracions son estats tanben corrèctes e dins la darrièra fasa (a partir de tèxtes de la Wikipédia francesa doncas del francés a l’occitan) equivalents a un WER de 10%
Los resultats de las avaloracions son estats tanben corrèctes e dins la darrièra fasa (a partir de tèxtes de la Wikipédia francesa doncas del francés a l’occitan) equivalents a un WER de 10%


=== Traductor occità-francés ===
=== Traductor occitan-francés ===


Per contra, un dels objectius inicials qu'es pas estat portat a tèrme, es l'elaboracion d'un desambiguador occitan pro eficaç, que l'actual dona pas de resultats gaire satisfasents. Son estat desambiguats 6 tèxtes amb un total de 14.000 mots, que 9.000 son sortidas de tèxtes en occitan referencial, 3.200 en provençal e 1.800 en gascon (aranés e comengés compreses).
Per contra, un dels objectius inicials qu'es pas estat portat a tèrme, es l'elaboracion d'un desambiguador occitan pro eficaç, que l'actual dona pas de resultats gaire satisfasents. Son estat desambiguats 6 tèxtes amb un total de 14.000 mots, que 9.000 son sortidas de tèxtes en occitan referencial, 3.200 en provençal e 1.800 en gascon (aranés e comengés compreses).
Line 53: Line 58:
* [http://revistadoc.com/?page_id=242 Preconizacions del Conselh de la Lenga Occitana (2007)]
* [http://revistadoc.com/?page_id=242 Preconizacions del Conselh de la Lenga Occitana (2007)]
* [http://www.termcat.cat/dicci/societatinformacion Vocabulari de las Novèlas Tecnologias e Internet]
* [http://www.termcat.cat/dicci/societatinformacion Vocabulari de las Novèlas Tecnologias e Internet]
* [http://www.ieo12.org/d7/index.php Diccionari de Cantalausa]
* [http://www.academiaoccitana.eu/diccionari/DGLO.pdf Diccionari de l’Academia Occitana-Consistòri del Gai Saber]
* [http://www.academiaoccitana.eu/diccionari/DGLO.pdf Diccionari de l’Academia Occitana-Consistòri del Gai Saber]
* [https://www.jornalet.com/ Jornalet, jornal occitan en linha]
* [https://www.jornalet.com/ Jornalet, jornal occitan en linha]
Line 60: Line 66:
*Lo tèma prioritari e crucial concernís lo traductor occitan-francés.
*Lo tèma prioritari e crucial concernís lo traductor occitan-francés.
** Desambiguador
** Desambiguador
** Règlas de transferiment. Son pas que 88 del costat oci>fra (repartidas sus 6 nivèls), mentre que del costat fra>oci n'i a 150 (repartidas sus 4 nivèls).
** Règlas de transferiment. Son pas que 84 del costat oci>fra (repartidas sus 6 nivèls), mentre que del costat fra>oci n'i a 150 (repartidas sus 4 nivèls).`
*Se deu melhorar tanben lo desambiguador francés-occitan.
*Melhorar e matisar qualques correspondéncias dins lo diccionari bilingue (subretot dins lo sens oci > fra).
*Melhorar e matisar qualques correspondéncias dins lo diccionari bilingue (subretot dins lo sens oci > fra).
*Completar lo monodix occitan amb de formas mens usualas del lexic occitan estandard e tanben las variantas dialectalas.
*Completar lo monodix occitan amb de formas mens usualas del lexic occitan estandard e tanben las variantas dialectalas.
Line 67: Line 74:


== Valoracion d'aquesta experiéncia e mercejaments ==
== Valoracion d'aquesta experiéncia e mercejaments ==
Aquesta experiéncia es estada plan preciosa; e mai se la carga de trabalh es estada pesanta dins ma vida personala ja pro complicada.

M’a dobèrt la pòrta a qualques esquèmas basics dels còdis dels traductors (e mai se me demòran encara fòrça causas a aprendre) e a trabalhar dins una environa novèla.

Per çò qu’es de l’occitan, m’a permés tanben de pensar, e mai perpensar, a l’estandard, e a l’encòp a la gestion de la variacion. Ai passat pro de temps a analisar las frequéncias de las divèrsas solucions possiblas per veire melhor los elements de lenga, o de l’estructura de la lenga, que pòscan causar problèma al moment d’elaborar un traductor, e aquò a representat tanben un enriquiment personal pel lingüista que soi.

Pasmens una de las facietas mai ricas a mon vejaire, es que m’a permés de conéisser un pauc la comunitat Apertium, e de m’i integrar un brin. Es facha de personas remarcablas dispausadas de contunh a ajudar los uns e los autres, que s’avodan d’a fons dins aqueste prètzfach admirable de bastir de ponts entre las lengas e subretot ajudar las lengas mai feblas qu’an mai besonh que las autras encara de material d’aquesta mena per sa subrevida.

Mercegi tornarmai totes los, qu'ai ja citat abans, que m’an ajudat sul camin de la confeccion del traductor, e subretot Hèctor que sens sa preséncia aguèsse pas pogut bastir grand causa. Lo mercegi doblament, a mai de sas competéncia, devocion e professionalitat, per son afabilitat, son umanitat e lo fach que poguèssem escambiar, nos conéisser un pauc mai e nos apreciar melhor.

Espèri de poder contunhar a collaborar a aqueste projècte, e dins la mesura de ma disponibilitat contunharai a participar e ajudar la comunitat Apertium en ensajar d’enriquir e melhorar los diccionaris de las lengas que domini.

[[Category:Occitan e francés]]
[[Category:Occitan and French]]

Latest revision as of 22:10, 14 August 2018

Introduccion[edit]

Vaquí en seguida un bilanç somari de l'elaboracion del traductor occitan-francés/francés-occitan per ieu, Claudi Balaguer/Capsot, jos la direccion e guidança d'Hèctor Alòs i Font durant l'annada 2018 dins l'encastre del programa Google Summer of Code.

All the Data/Totas las donadas

Los enviaments (Commits)[edit]

Dins lo ligam seguent podètz dobrir una pagina que permet d’accedir als divèrses enviaments que faguèri sus GitHub durant aquel periòde dins los tres depauses (majoritàriament dins lo diccionari bilingue pasmens): https://apertium.projectjj.com/gsoc2018/capsot/capsot.html

Se pòdon telecargar en format tar.gz aicí: https://apertium.projectjj.com/gsoc2018/capsot.tar.gz.

E aicí los enviaments se pòdon telecargar tanben en zip: https://apertium.projectjj.com/gsoc2018/capsot.zip.

Plan de trabalh[edit]

Lo plan de trabalh (visible aicí: Occitan_and_French/Work_plan) es estat globalament respectat. Malgrat qualques problèmas tecnics e l'indisponibilitat momentanèa del desambigüador morfologic, las resultas finalas son pro bonas e generalament ensús de las previsions inicialas.

Descripcion e ossamenta del projècte[edit]

Istoric[edit]

Lo projècte s'inscriu coma una mena de continuacion, o dins una cèrta mesura l’eiretièr, del trabalh ja mes en plaça per Gema Ramírez Sánchez, Carme Armentano e divèrses membres e estructuras de l'Universitat d'Alacant en 2007-2008 amb la collaboracion del Conselh Generau d’Aran (Comission del Traductor; mai d'informacion: [1]), valent a dire un traductor automatic occitan/catalan e occitan/espanhòl amb la possibilitat tanben d’emplegar la modalitat aranesa en luòga de l’occitan estandard.

L’elaboracion[edit]

Ai començat a trabalhar sul diccionari bilingue qu’èra estat ja en part emplenat automaticament per Francis Tyers amb qualques intervencions prealablas a mon arribada de Xavi Ivars, Sushain Cherivirala, e evidentament de mon mentor, H. Alòs. Comptava a la debuta aperaquí 5.700 lèmas per arribar finalament 26.908 al 5 d’agost, valent a dire, un pauc mai de 3.000 mots en dessús de çò qu’èra previst inicialament (23.500).

Dins lo cors del trabalh ai rescontrat fòrça problèmas tecnics, deguts probablament a una installacion deficienta de ma VirtualBox sus mon ordinador. Gràcias a l’ajuda de divèrsas personas coma mon mentor, e tanben de Shardul Chiplunkar (shardulc; धन्यवाद), Jacob Nordfalk (JacobEo), Tino Didriksen e Ilnar Salimzianov (selimcan; Räxmät) avèm pogut avançar e progressar a bon ritme malgrat aquelas empachas. Cal citar tanben Ferriol Macip (que nos a fach arribar lo còrpus de Jornalet e nos n'a autorizat l'emplec) e Joan Marc Leclercq que nos an portat una ajuda preciosa dins lo domeni de la lenga occitana e sa variacion dialectala.

Un autre problèma es estat la confrontacion a una granda varietat de mots d’origina dialectala divèrsa amb mai d’una traduccion. Calguèt classificar a despart los mots gascons (e araneses) amb una etiqueta particulara e marcar amb LR (o RL) las formas segondàrias (dialectalas o de traduccion mai complèxa). Aprèp la neteja iniciala, avèm utilizat lo Wiktionnaire per obtenir de traduccions de paraules, que foguèron revisadas sistematicament e apondudas al bidix. Puèi, s'es procedit a l’introduccion de mots a partir de listas de mots qu'avián pas encara de traduccion en occitan e foguèron ordenats segon un òrdre invèrs de frequéncia, en utilizar la Wikipédia francesa coma còrpus. Del costat occitan, la qualitat de la Wikipèdia essent mai flaca, es subretot lo jornal electronic Jornalet qu’a servit de basa de donadas per la bastison de las aisinas de revirada.

L'avaloracion[edit]

Un autre aspècte important del trabalh es estat l'avaloracion de la qualitat de las traduccions de l'aisina. Foguèron fachas sièis còps sistematicament a partir de tèxtes traches de la Wikipédia o del bulletin de nòvas EuroNews, çò que representava cada còp entre 500 e 700 mots, levat la traduccion finala que ne comptava 1000.

L'analisi dels errors nos a permés de:

  • Trobar d'errors dins los paradigmas occitans
  • Descobrir d'errors de mots mal triats dins lo diccionari bilingue
  • Detectar d'errors de desambiguacion morfologica
  • Trobar de caréncias dins las règlas de transferiment

Aqueste darrièr ponch es estat fòrça important que nos a portat a marcar totes los vèrbs transitius dins lo bidix pr'amor de poder resòlvre una part bèla dels problèmas que se presentavan amb los partitius (plan abituals al començament).

Las resultas[edit]

Lo resultat es generalament satisfasent. La màger part dels objectius es estat atencha, manca per çò qu’es del desambiguador. Lo diccionari bilingue conten ara 26.908 lèmas, mai o mens 41.000 amb los noms d'ostal (gaireben 14.000), çò que representa una cobertura reala de 92,9% dins lo sens oci > fra e 92,3% del francés a l’occitan (èra previst 90% dins totes dos senses). Lo contengut del diccionari monolingue occitan a crescut per tal d’aténher actualament aproximativament 46.000 dintradas (los noms d'ostal ne representan aperaquí 14.000).

Lo diccionari representa pas sonque una basa de donada lexicala, qu’amb Hèctor avèm apondut una quantitat importanta de toponims e de gentilicis que fasián sofracha, subretot dins l’airal occitan. L’addicion de pichòts noms, noms d’ostals e acronims es estat tanben importanta mai que mai dins lo diccionari bilingue.

Un efièch «collateral» del trabalh es estat un melhorament e afinament sensible del diccionari francés (plan mai complet que l’occitan, segur), trabalh fach subretot per Hèctor que mos cambiaments i son pas estat gaire nombroses.

Aprèp, fòrça mai important que lo cambiament anterior, conven de parlar dels melhoraments faches dins las règlas de desambiguacion, gràcias a l'analisi facha a partir de las traduccions.

Los resultats de las avaloracions son estats tanben corrèctes e dins la darrièra fasa (a partir de tèxtes de la Wikipédia francesa doncas del francés a l’occitan) equivalents a un WER de 10%

Traductor occitan-francés[edit]

Per contra, un dels objectius inicials qu'es pas estat portat a tèrme, es l'elaboracion d'un desambiguador occitan pro eficaç, que l'actual dona pas de resultats gaire satisfasents. Son estat desambiguats 6 tèxtes amb un total de 14.000 mots, que 9.000 son sortidas de tèxtes en occitan referencial, 3.200 en provençal e 1.800 en gascon (aranés e comengés compreses).

Doncas la manca d'un desambiguador, que se deurà bastir posteriorament, a empachat lo traductor occitan-francés de sortir de son estat embrionari e de prosperar.

Ressorsas[edit]

Son estats emplegats divèrses espleches coma de diccionaris en papièr que citarem pas aicí totes mas que lo principal es estat lo de Loís Alibèrt e mai sa gramatica. Lo Vèrb occitan de Patric Sauzet e Josiana Ubaud tanben es estat fòrça util dins lo domeni de la morfologia verbala. Per la confeccion dels diccionaris, avèm consultat e seguit los Acòrds de la Comission del Traductor (publicats en 2008). Avètz çai jos las òbras que consultèri en linha:

Trabalh avenidor[edit]

  • Lo tèma prioritari e crucial concernís lo traductor occitan-francés.
    • Desambiguador
    • Règlas de transferiment. Son pas que 84 del costat oci>fra (repartidas sus 6 nivèls), mentre que del costat fra>oci n'i a 150 (repartidas sus 4 nivèls).`
  • Se deu melhorar tanben lo desambiguador francés-occitan.
  • Melhorar e matisar qualques correspondéncias dins lo diccionari bilingue (subretot dins lo sens oci > fra).
  • Completar lo monodix occitan amb de formas mens usualas del lexic occitan estandard e tanben las variantas dialectalas.
  • Verificar qualques elements de la morfologia verbala occitana.
  • Apondre mai d’elements toponimics e de gentilicis del territòri occitan.

Valoracion d'aquesta experiéncia e mercejaments[edit]

Aquesta experiéncia es estada plan preciosa; e mai se la carga de trabalh es estada pesanta dins ma vida personala ja pro complicada.

M’a dobèrt la pòrta a qualques esquèmas basics dels còdis dels traductors (e mai se me demòran encara fòrça causas a aprendre) e a trabalhar dins una environa novèla.

Per çò qu’es de l’occitan, m’a permés tanben de pensar, e mai perpensar, a l’estandard, e a l’encòp a la gestion de la variacion. Ai passat pro de temps a analisar las frequéncias de las divèrsas solucions possiblas per veire melhor los elements de lenga, o de l’estructura de la lenga, que pòscan causar problèma al moment d’elaborar un traductor, e aquò a representat tanben un enriquiment personal pel lingüista que soi.

Pasmens una de las facietas mai ricas a mon vejaire, es que m’a permés de conéisser un pauc la comunitat Apertium, e de m’i integrar un brin. Es facha de personas remarcablas dispausadas de contunh a ajudar los uns e los autres, que s’avodan d’a fons dins aqueste prètzfach admirable de bastir de ponts entre las lengas e subretot ajudar las lengas mai feblas qu’an mai besonh que las autras encara de material d’aquesta mena per sa subrevida.

Mercegi tornarmai totes los, qu'ai ja citat abans, que m’an ajudat sul camin de la confeccion del traductor, e subretot Hèctor que sens sa preséncia aguèsse pas pogut bastir grand causa. Lo mercegi doblament, a mai de sas competéncia, devocion e professionalitat, per son afabilitat, son umanitat e lo fach que poguèssem escambiar, nos conéisser un pauc mai e nos apreciar melhor.

Espèri de poder contunhar a collaborar a aqueste projècte, e dins la mesura de ma disponibilitat contunharai a participar e ajudar la comunitat Apertium en ensajar d’enriquir e melhorar los diccionaris de las lengas que domini.