Difference between revisions of "User:Capsot/GSOC 2018 Occitan French"

From Apertium
Jump to navigation Jump to search
Line 23: Line 23:
   
 
L'analisi dels errors nos a permés de:
 
L'analisi dels errors nos a permés de:
-Trobar d'errors dins los paradigmas occitans
+
*Trobar d'errors dins los paradigmas occitans
-Descobrir d'errors de mots mal triats dins lo diccionari bilingue
+
*Descobrir d'errors de mots mal triats dins lo diccionari bilingue
-Detectar d'errors de desambiguacion morfologica
+
*Detectar d'errors de desambiguacion morfologica
-Trobar de caréncias dins las règlas de transferiment
+
*Trobar de caréncias dins las règlas de transferiment
   
 
=== Las resultas ===
 
=== Las resultas ===

Revision as of 20:27, 10 August 2018

Introduccion

Vaquí en seguida un bilanç somari de l'elaboracion del traductor occitan-francés/francés-occitan per ieu, Claudi Balaguer/Capsot, jos la direccion e guidança d'Hèctor Alòs i Font durant l'annada 2018 dins l'encastre del programa Google Summer of Code.

Los enviaments (Commits)

Dins lo ligam seguent podètz dobrir una pagina que permet d’accedir als divèrses enviaments que faguèri sus GitHub durant aquel periòde dins los tres depauses (majoritàriament dins lo diccionari bilingue pasmens): https://apertium.projectjj.com/gsoc2018/capsot/capsot.html

Plan de trabalh

Lo plan de trabalh (visible aicí: Occitan_and_French/Work_plan) es estat globalament respectat. Malgrat qualques problèmas tecnics e l'indisponibilitat momentanèa del desambigüador morfologic, las resultas finalas son pro bonas e generalament ensús de las previsions inicialas.

Descripcion e ossamenta del projècte

Istoric

Lo projècte s'inscriu coma una mena de continuacion, o dins una cèrta mesura l’eiretièr, del trabalh ja mes en plaça per Gema Ramírez Sánchez, Carme Armentano e divèrses membres e estructuras de l'Universitat d'Alacant en 2007-2008 amb la collaboracion del Conselh Generau d’Aran (Comission del Traductor; mai d'informacion: [[1]]Comission del Traductor), valent a dire un traductor automatic occitan/catalan e occitan/espanhòl amb la possibilitat tanben d’emplegar la modalitat aranesa en luòga de l’occitan estandard.

L’elaboracion

Ai començat a trabalhar sul diccionari bilingue qu’èra estat ja en part emplenat automaticament per Francis Tyers amb qualques intervencions prealablas a mon arribada de Xavi Ivars, Sushain Cherivirala, e evidentament de mon mentor, H. Alòs. Comptava a la debuta aperaquí 5.700 lèmas per arribar finalament 26.908 al 5 d’agost, valent a dire, un pauc mai de 3.000 mots en dessús de çò qu’èra previst inicialament (23.500).

Dins lo cors del trabalh ai rescontrat fòrça problèmas tecnics, deguts probablament a una installacion deficienta de ma VirtualBox sus mon ordinador. Gràcias a l’ajuda de divèrsas personas coma mon mentor, e tanben de Shardul Chiplunkar (shardulc; धन्यवाद), Jacob Nordfalk (JacobEo), Tino Didriksen e Ilnar Salimzianov (selimcan; Räxmät) avèm pogut avançar e progressar a bon ritme malgrat aquelas empachas.

Un autre problèma es estat la confrontacion a una granda varietat de mots d’origina dialectala divèrsa amb mai d’una traduccion. Calguèt classificar a despart los mots gascons (e araneses) amb una etiqueta particulara e marcar amb LR (o RL) las formas segondàrias (dialectalas o de traduccion mai complèxa). Aprèp la neteja iniciala, avèm utilizat lo Wiktionnaire per obtenir de traduccions de paraules, que foguèron revisadas sistematicament e apondudas al bidix. Puèi, s'es procedit a l’introduccion de mots a partir de listas de mots qu'avián pas encara de traduccion en occitan e foguèron ordenats segon un òrdre invèrs de frequéncia, en utilizar la Wikipédia francesa coma còrpus. Del costat occitan, la qualitat de la Wikipèdia essent mai flaca, es subretot lo jornal electronic Jornalet qu’a servit de basa de donadas per la bastison de las aisinas de revirada.

L'avaloracion

Un autre aspècte important del trabalh es estat l'avaloracion de la qualitat de las traduccions de l'aisina. Foguèron fachas sièis còps sistematicament a partir de tèxtes traches de la Wikipédia o del bulletin de nòvas EuroNews, çò que representava cada còp entre 500 e 700 mots, levat d'una traduccion que ne comptava 1000.

L'analisi dels errors nos a permés de:

  • Trobar d'errors dins los paradigmas occitans
  • Descobrir d'errors de mots mal triats dins lo diccionari bilingue
  • Detectar d'errors de desambiguacion morfologica
  • Trobar de caréncias dins las règlas de transferiment

Las resultas

Lo resultat es generalament satisfasent. La màger part dels objectius es estat atencha, manca per çò qu’es del desambiguador. Lo diccionari bilingue conten ara 26.908 lèmas, mai o mens 41.000 amb los noms d'ostal (gaireben 14.000), çò que representa una cobertura reala de 92,9% dins lo sens oci > fra e 92,3% del francés a l’occitan (èra previst 90% dins totes dos senses). Lo contengut del diccionari monolingue occitan a crescut per tal d’aténher actualament aproximativament 46.000 dintradas (los noms d'ostal ne representan aperaquí 14.000).

Lo diccionari representa pas sonque una basa de donada lexicala, qu’amb Hèctor avèm apondut una quantitat importanta de toponims e de gentilicis que fasián sofracha, subretot dins l’airal occitan. L’addicion de pichòts noms, noms d’ostals e acronims es estat tanben importanta mai que mai dins lo diccionari bilingue.

Un efièch «collateral» del trabalh es estat lo melhorament e afinament del diccionari francés (plan mai complet que l’occitan, segur), trabalh fach subretot per Hèctor que mos cambiaments i son pas estat gaire nombroses.

Los resultats de las avaloracions es estat tanben corrècte e dins la darrièra fasa (a partir de tèxtes de la Wikipédia francesa doncas del francés a l’occitan equivalents a un WER de 10%

Ressorsas

Son estats emplegats divèrses espleches coma de diccionaris en papièr que citarem pas aicí totes mas que lo principal es estat lo de Loís Alibèrt e mai sa gramatica. Avètz çai jos las òbras que consultèri en linha:

Contengut actual dels diccionaris (10 d'agost de 2018)

Valoracion d'aquesta experiéncia e mercejaments