User:Capsot/GSOC 2018 Occitan French

From Apertium
Jump to navigation Jump to search

Introduccion

Vaquí en seguida un bilanç somari de l'elaboracion del traductor occitan-francés/francés-occitan per ieu, Claudi Balaguer/Capsot, jos la direccion e guidança d'Hèctor Alòs i Font durant l'annada 2018 dins l'encastre del programa Google Summer of Code.

Los enviaments (Commits)

Dins lo ligam seguent podètz dobrir una pagina que permet d’accedir als divèrses enviaments que faguèri sus GitHub durant aquel periòde dins los tres depauses (majoritàriament dins lo diccionari bilingue pasmens): https://apertium.projectjj.com/gsoc2018/capsot/capsot.html

Plan de trabalh

Lo plan de trabalh (visible aicí: Occitan_and_French/Work_plan) es estat globalament respectat. Malgrat qualques problèmas tecnics e l'indisponibilitat momentanèa del desambigüador morfologic, las resultas finalas son pro bonas e generalament ensús de las previsions inicialas.

Descripcion e ossamenta del projècte

Istoric

Lo projècte s'inscriu coma una mena de continuacion, o dins una cèrta mesura l’eiretièr, del trabalh ja mes en plaça per Gema Ramírez Sánchez, Carme Armentano e divèrses membres e estructuras de l'Universitat d'Alacant en 2007-2008 amb la collaboracion del Conselh Generau d’Aran (Comission del Traductor; mai d'informacion: [[1]]Comission del Traductor), valent a dire un traductor automatic occitan/catalan e occitan/espanhòl amb la possibilitat tanben d’emplegar la modalitat aranesa en luòga de l’occitan estandard.

L’elaboracion

Ai començat a trabalhar sul diccionari bilingue qu’èra estat ja en part emplenat automaticament per Francis Tyers amb qualques intervencions prealablas a mon arribada de Xavi Ivars e Sushain e evidentament de mon mentor. Comptava a la debuta aperaquí 5.700 lèmas per arribar finalament 26.908 al 5 d’agost, valent a dire, un pauc mai de 3.000 mots en dessús de çò qu’èra previst inicialament (23.500).

Dins lo cors del trabalh ai rescontrat fòrça problèmas tecnics, deguts probablament a una installacion deficienta de ma VirtualBox sus mon ordinador. Gràcias a l’ajuda de divèrsas personas coma mon mentor, e tanben avèm pogut avançar e progressar a bon ritme malgrat aquelas empachas.

Un autre problèma es estat la confrontacion a una granda varietat de mots d’origina dialectala divèrsa amb mai d’una traduccion. Calguèt classificar a despart los mots gascons (e araneses) amb una etiqueta particulara e marcar amb LR (o RL) las formas segondàrias (dialectalas o de traduccion mai complèxa). Aprèp la neteja iniciala, l’introduccion de mots s’es facha a partir de listas de mots a revirar segon lor frequéncia. Lo còrpus del costat francés es generalament estat posat dins lo wiktionnaire francés e puèi dins la Wikipédia. Del costat occitan, la qualitat de la wikipèdia essent mai flaca es subretot lo jornal electronic Jornalet qu’a servit de basa de donadas per la bastison de las aisinas de revirada.

Ressorsas

Son estats emplegats divèrses espleches coma de diccionaris en papièr que citarem pas aicí totes mas que lo principal es estat lo de Loís Alibèrt e mai sa gramatica. Avètz çai jos las òbras que consultèri en linha:

Contengut actual dels diccionaris (10 d'agost de 2018)

Valoracion d'aquesta experiéncia e mercejaments