Difference between revisions of "User:Capsot/GSOC 2018 Occitan French"

From Apertium
Jump to navigation Jump to search
Line 48: Line 48:
   
 
===Ressorsas===
 
===Ressorsas===
Son estats emplegats divèrses espleches coma de diccionaris en papièr que citarem pas aicí totes mas que lo principal es estat lo de [https://oc.wikipedia.org/wiki/Lo%C3%ADs_Alib%C3%A8rt| Loís Alibèrt] e mai sa gramatica. Dins la confeccion dels diccionaris, avèm consultat e seguit los Acòrds de la Comission del Traductor (publicats en 2008). Avètz çai jos las òbras que consultèri en linha:
+
Son estats emplegats divèrses espleches coma de diccionaris en papièr que citarem pas aicí totes mas que lo principal es estat lo de [https://oc.wikipedia.org/wiki/Lo%C3%ADs_Alib%C3%A8rt| Loís Alibèrt] e mai sa gramatica. Lo ''Vèrb occitan'' de Patric Sauzet e Josiana Ubaud tanben es estat fòrça util dins lo domeni de la morfologia verbala. Per la confeccion dels diccionaris, avèm consultat e seguit los Acòrds de la Comission del Traductor (publicats en 2008). Avètz çai jos las òbras que consultèri en linha:
   
 
* [https://www.locongres.org/fr/applications/dicodoc-fr/dicodoc-recherche Ensems de divèrses diccionaris d’occitan reünits pel Congrès Permanent de la Lenga Occitana]
 
* [https://www.locongres.org/fr/applications/dicodoc-fr/dicodoc-recherche Ensems de divèrses diccionaris d’occitan reünits pel Congrès Permanent de la Lenga Occitana]

Revision as of 21:38, 10 August 2018

Introduccion

Vaquí en seguida un bilanç somari de l'elaboracion del traductor occitan-francés/francés-occitan per ieu, Claudi Balaguer/Capsot, jos la direccion e guidança d'Hèctor Alòs i Font durant l'annada 2018 dins l'encastre del programa Google Summer of Code.

Los enviaments (Commits)

Dins lo ligam seguent podètz dobrir una pagina que permet d’accedir als divèrses enviaments que faguèri sus GitHub durant aquel periòde dins los tres depauses (majoritàriament dins lo diccionari bilingue pasmens): https://apertium.projectjj.com/gsoc2018/capsot/capsot.html

Plan de trabalh

Lo plan de trabalh (visible aicí: Occitan_and_French/Work_plan) es estat globalament respectat. Malgrat qualques problèmas tecnics e l'indisponibilitat momentanèa del desambigüador morfologic, las resultas finalas son pro bonas e generalament ensús de las previsions inicialas.

Descripcion e ossamenta del projècte

Istoric

Lo projècte s'inscriu coma una mena de continuacion, o dins una cèrta mesura l’eiretièr, del trabalh ja mes en plaça per Gema Ramírez Sánchez, Carme Armentano e divèrses membres e estructuras de l'Universitat d'Alacant en 2007-2008 amb la collaboracion del Conselh Generau d’Aran (Comission del Traductor; mai d'informacion: [[1]]Comission del Traductor), valent a dire un traductor automatic occitan/catalan e occitan/espanhòl amb la possibilitat tanben d’emplegar la modalitat aranesa en luòga de l’occitan estandard.

L’elaboracion

Ai començat a trabalhar sul diccionari bilingue qu’èra estat ja en part emplenat automaticament per Francis Tyers amb qualques intervencions prealablas a mon arribada de Xavi Ivars, Sushain Cherivirala, e evidentament de mon mentor, H. Alòs. Comptava a la debuta aperaquí 5.700 lèmas per arribar finalament 26.908 al 5 d’agost, valent a dire, un pauc mai de 3.000 mots en dessús de çò qu’èra previst inicialament (23.500).

Dins lo cors del trabalh ai rescontrat fòrça problèmas tecnics, deguts probablament a una installacion deficienta de ma VirtualBox sus mon ordinador. Gràcias a l’ajuda de divèrsas personas coma mon mentor, e tanben de Shardul Chiplunkar (shardulc; धन्यवाद), Jacob Nordfalk (JacobEo), Tino Didriksen e Ilnar Salimzianov (selimcan; Räxmät) avèm pogut avançar e progressar a bon ritme malgrat aquelas empachas.

Un autre problèma es estat la confrontacion a una granda varietat de mots d’origina dialectala divèrsa amb mai d’una traduccion. Calguèt classificar a despart los mots gascons (e araneses) amb una etiqueta particulara e marcar amb LR (o RL) las formas segondàrias (dialectalas o de traduccion mai complèxa). Aprèp la neteja iniciala, avèm utilizat lo Wiktionnaire per obtenir de traduccions de paraules, que foguèron revisadas sistematicament e apondudas al bidix. Puèi, s'es procedit a l’introduccion de mots a partir de listas de mots qu'avián pas encara de traduccion en occitan e foguèron ordenats segon un òrdre invèrs de frequéncia, en utilizar la Wikipédia francesa coma còrpus. Del costat occitan, la qualitat de la Wikipèdia essent mai flaca, es subretot lo jornal electronic Jornalet qu’a servit de basa de donadas per la bastison de las aisinas de revirada.

L'avaloracion

Un autre aspècte important del trabalh es estat l'avaloracion de la qualitat de las traduccions de l'aisina. Foguèron fachas sièis còps sistematicament a partir de tèxtes traches de la Wikipédia o del bulletin de nòvas EuroNews, çò que representava cada còp entre 500 e 700 mots, levat la traduccion finala que ne comptava 1000.

L'analisi dels errors nos a permés de:

  • Trobar d'errors dins los paradigmas occitans
  • Descobrir d'errors de mots mal triats dins lo diccionari bilingue
  • Detectar d'errors de desambiguacion morfologica
  • Trobar de caréncias dins las règlas de transferiment

Aqueste darrièr ponch es estat fòrça important que nos a portat a marcar totes los vèrbs transitius dins lo bidix pr'amor de poder resòlvre una part bèla dels problèmas que se presentavan amb los partitius (plan abituals al començament).

Las resultas

Lo resultat es generalament satisfasent. La màger part dels objectius es estat atencha, manca per çò qu’es del desambiguador. Lo diccionari bilingue conten ara 26.908 lèmas, mai o mens 41.000 amb los noms d'ostal (gaireben 14.000), çò que representa una cobertura reala de 92,9% dins lo sens oci > fra e 92,3% del francés a l’occitan (èra previst 90% dins totes dos senses). Lo contengut del diccionari monolingue occitan a crescut per tal d’aténher actualament aproximativament 46.000 dintradas (los noms d'ostal ne representan aperaquí 14.000).

Lo diccionari representa pas sonque una basa de donada lexicala, qu’amb Hèctor avèm apondut una quantitat importanta de toponims e de gentilicis que fasián sofracha, subretot dins l’airal occitan. L’addicion de pichòts noms, noms d’ostals e acronims es estat tanben importanta mai que mai dins lo diccionari bilingue.

Un efièch «collateral» del trabalh es estat un melhorament e afinament sensible del diccionari francés (plan mai complet que l’occitan, segur), trabalh fach subretot per Hèctor que mos cambiaments i son pas estat gaire nombroses.

Aprèp, fòrça mai important que lo cambiament anterior, conven de parlar dels melhoraments faches dins las règlas de desambiguacion, gràcias a l'analisi facha a partir de las traduccions.

Los resultats de las avaloracions son estats tanben corrèctes e dins la darrièra fasa (a partir de tèxtes de la Wikipédia francesa doncas del francés a l’occitan) equivalents a un WER de 10%

Traductor occità-francés

Per contra, un dels objectius inicials qu'es pas estat portat a tèrme, es l'elaboracion d'un desambiguador occitan pro eficaç, que l'actual dona pas de resultats gaire satisfasents. Son estat desambiguats 6 tèxtes amb un total de 14.000 mots, que 9.000 son sortidas de tèxtes en occitan referencial, 3.200 en provençal e 1.800 en gascon (aranés e comengés compreses).

Doncas la manca d'un desambiguador, que se deurà bastir posteriorament, a empachat lo traductor occitan-francés de sortir de son estat embrionari e de prosperar.

Ressorsas

Son estats emplegats divèrses espleches coma de diccionaris en papièr que citarem pas aicí totes mas que lo principal es estat lo de Loís Alibèrt e mai sa gramatica. Lo Vèrb occitan de Patric Sauzet e Josiana Ubaud tanben es estat fòrça util dins lo domeni de la morfologia verbala. Per la confeccion dels diccionaris, avèm consultat e seguit los Acòrds de la Comission del Traductor (publicats en 2008). Avètz çai jos las òbras que consultèri en linha:

Trabalh avenidor

  • Lo tèma prioritari e crucial concernís lo traductor occitan-francés.
    • Desambiguador
    • Règlas de transferiment. Son pas que 88 del costat oci>fra (repartidas sus 6 nivèls), mentre que del costat fra>oci n'i a 150 (repartidas sus 4 nivèls).
  • Melhorar e matisar qualques correspondéncias dins lo diccionari bilingue (subretot dins lo sens oci > fra).
  • Completar lo monodix occitan amb de formas mens usualas del lexic occitan estandard e tanben las variantas dialectalas.
  • Verificar qualques elements de la morfologia verbala occitana.
  • Apondre mai d’elements toponimics e de gentilicis del territòri occitan.

Valoracion d'aquesta experiéncia e mercejaments