Difference between revisions of "Hectoralos/GSOC 2020 rapport final"

From Apertium
Jump to navigation Jump to search
Line 7: Line 7:
 
==Buts et plan de travail==
 
==Buts et plan de travail==
   
Les buts du projet et le plan de travail sont décrits dans [[User:Hectoralos/GSOC_2020_proposal:_French-Arpitan|la proposition que j'ai fait]] début février. Il s'agissait de construire un traducteur bidirectionnel français-arpitan. L'arpitan n'était pas encore introduit dans Apertium, donc j'ai dû créer le référentiel [[https://github.com/apertium/apertium-frp apertium-frp]]. Entre les différentes normes orthographiques utilisées pour l'arpitan, le projet a choisi la norme ORB, qui est supra-dialectale. Un grand avantage de cette norme est qu'on a déjà fait un très grand travail de choix entre les très nombreuses formes des mots et des morphèmes pour tout le territoire où la langue est parlée, tandis que les autres orthographes n'ont pour objet qu'un dialecte particulier. Il faut aussi noter que la plupart de la [[https://frp.wikipedia.org Wikipédia arpitane]] utilise cette orthographe et qu'il existe [http://arpitan.eu/ un site extrêmement utile]] avec des dictionnaires en ligne.
+
Les buts du projet et le plan de travail sont décrits dans [[User:Hectoralos/GSOC_2020_proposal:_French-Arpitan|la proposition que j'ai fait]] début février. Il s'agissait de construire un traducteur bidirectionnel français-arpitan. L'arpitan n'était pas encore introduit dans Apertium, donc j'ai dû créer le référentiel [[https://github.com/apertium/apertium-frp apertium-frp]]. Entre les différentes normes orthographiques utilisées pour l'arpitan, le projet a choisi la norme ORB, qui est supra-dialectale. Un grand avantage de cette norme est qu'on a déjà fait un très grand travail de choix entre les très nombreuses formes des mots et des morphèmes pour tout le territoire où la langue est parlée, tandis que les autres orthographes n'ont pour objet qu'un dialecte particulier. Il faut aussi noter que la plupart de la [[https://frp.wikipedia.org Wikipédia arpitane]] utilise cette orthographe et qu'il existe [http://arpitan.eu/ un site extrêmement utile]] avec des dictionnaires en ligne.
  +
  +
==Développement du projet==
  +
  +
Le projet a compté des le début avec l’aide énorme de Dominique Stich, créateur de l’ORB, et Alain Favre, co-auteur avec Stich d’un dictionnaire français-savoyard et éditeur du dictionnaire français-francoprovençal de Stich. Les deux ont permis l’utilisation de ce dictionnaire. Stich n’a donné une version électronique actualisée, qui est la base des dictionnaires apertium-frp et apertium-fra-frp. Les deux le long de tout le projet ont aidé à les compléter avec plusieurs milliers de mots chacun. Le contact avec Stich au sujet de questions lexiques et grammaticales a été permanent. Les nombreuses remarques de Favre sur des traductions faites a l’aide de [https://beta.apertium.org beta.apertium.org] ont été extrêmement utiles. C’est pour cela que les résultats du projet sont nettement meilleurs que prévu en février. Je suis extrêmement reconnaissant à tous les deux pour leur dévouement. Évidemment, cela ne veut pas dire que le traducteur n’ai pas d’erreurs (ce serait impossible), ni qu’on puisse leur imputer ces erreurs de quelque manière que ce soit.
  +
  +
===Le dictionnaire arpitan===
  +
  +
J’ai investi beaucoup de temps sur le dictionnaire arpitan. Malgré la standardisation de l’ORB les textes écrits avec cette norme ont encore une grande variété. La norme différencie entre « graphie large » et « graphie serrée ». La première est l’essai de trouver une espèce de juste milieu entre les très nombreuses formes locales, mais au prix de l'utiliser une orthographe plus étymologique et éloignée des réalisations phonétiques concrètes de chaque lieu. La deuxième permet de se rapprocher aux formes locales, au prix de la multiplication des mots et des formes fléchies. J’ai concentré les efforts dans la production de textes en graphie large, ce qui implique que la traduction de textes arpitans au français est nettement pire.
  +
  +
Mais il y a encore de nombreux détails qui restent sujet de discussion dans l’ORB, en général, et la « graphie large » en particulier. L’effacement, voire la disparition, des terminaisons dans la plupart des variétés complique les choses. Quant au lexique et la morphologie, les questions où j’ai trouvé de nombreuses contradictions dans les textes sont :
  +
  +
* La terminaison '''-ie''' ou '''-ia''' (et parfois '''-e''' ou '''-a''' dans les noms féminins). D’accord avec Stich, le traducteur choisit la terminaison '''-ie''', avec quelques exceptions.
  +
* La terminaison '''-âl''' ou '''-al''', voire '''-èl'''. Je suis la norme de Stich, qui restreint '''-âl''' à des formes anciennes.
  +
* Dans les gentilés qui terminent en '''-ois''' en français, en suivant Stich, j’utilise presque toujours '''-ouès''', mais parfois, à la demande de Favre, '''-ês''' est choisi.
  +
* La terminaison '''-ologo''' est préférée aux dépens d’'''-ologue''' et '''-ologisto'''.
  +
* Il y a de très nombreuses inconsistances dans les toponymes de la Vouiquipèdia, avec, par exemple, quatre formes différentes pour New York, des terminaisons '''-ia''' et '''-ie''', '''-landa''' et '''-lande''', etc. Stich a bien voulu fournir une liste de tous les états avec ses gentilés, ainsi que de nombreux autres toponymes. Quand même, la Vouiquipèdia est restée une source majeure. Il faudrait encore travailler davantage sur certains toponymes parce que le choix d’'''a''' ou '''â''', '''o''' ou '''ô''' en fin de mot ne semble pas consistant.
   
   

Revision as of 19:43, 27 August 2020

Introduction

Ce document décrit le travail réalisé par Hèctor Alòs dans le cadre du Google Summer of Code 2020. Le projet a été supervisé par Xavi Ivars et Gianfranco Fronteddu

Commits

On peut voir tous les commits du projet sur cette page.

Buts et plan de travail

Les buts du projet et le plan de travail sont décrits dans la proposition que j'ai fait début février. Il s'agissait de construire un traducteur bidirectionnel français-arpitan. L'arpitan n'était pas encore introduit dans Apertium, donc j'ai dû créer le référentiel [apertium-frp]. Entre les différentes normes orthographiques utilisées pour l'arpitan, le projet a choisi la norme ORB, qui est supra-dialectale. Un grand avantage de cette norme est qu'on a déjà fait un très grand travail de choix entre les très nombreuses formes des mots et des morphèmes pour tout le territoire où la langue est parlée, tandis que les autres orthographes n'ont pour objet qu'un dialecte particulier. Il faut aussi noter que la plupart de la [Wikipédia arpitane] utilise cette orthographe et qu'il existe un site extrêmement utile] avec des dictionnaires en ligne.

Développement du projet

Le projet a compté des le début avec l’aide énorme de Dominique Stich, créateur de l’ORB, et Alain Favre, co-auteur avec Stich d’un dictionnaire français-savoyard et éditeur du dictionnaire français-francoprovençal de Stich. Les deux ont permis l’utilisation de ce dictionnaire. Stich n’a donné une version électronique actualisée, qui est la base des dictionnaires apertium-frp et apertium-fra-frp. Les deux le long de tout le projet ont aidé à les compléter avec plusieurs milliers de mots chacun. Le contact avec Stich au sujet de questions lexiques et grammaticales a été permanent. Les nombreuses remarques de Favre sur des traductions faites a l’aide de beta.apertium.org ont été extrêmement utiles. C’est pour cela que les résultats du projet sont nettement meilleurs que prévu en février. Je suis extrêmement reconnaissant à tous les deux pour leur dévouement. Évidemment, cela ne veut pas dire que le traducteur n’ai pas d’erreurs (ce serait impossible), ni qu’on puisse leur imputer ces erreurs de quelque manière que ce soit.

Le dictionnaire arpitan

J’ai investi beaucoup de temps sur le dictionnaire arpitan. Malgré la standardisation de l’ORB les textes écrits avec cette norme ont encore une grande variété. La norme différencie entre « graphie large » et « graphie serrée ». La première est l’essai de trouver une espèce de juste milieu entre les très nombreuses formes locales, mais au prix de l'utiliser une orthographe plus étymologique et éloignée des réalisations phonétiques concrètes de chaque lieu. La deuxième permet de se rapprocher aux formes locales, au prix de la multiplication des mots et des formes fléchies. J’ai concentré les efforts dans la production de textes en graphie large, ce qui implique que la traduction de textes arpitans au français est nettement pire.

Mais il y a encore de nombreux détails qui restent sujet de discussion dans l’ORB, en général, et la « graphie large » en particulier. L’effacement, voire la disparition, des terminaisons dans la plupart des variétés complique les choses. Quant au lexique et la morphologie, les questions où j’ai trouvé de nombreuses contradictions dans les textes sont :

  • La terminaison -ie ou -ia (et parfois -e ou -a dans les noms féminins). D’accord avec Stich, le traducteur choisit la terminaison -ie, avec quelques exceptions.
  • La terminaison -âl ou -al, voire -èl. Je suis la norme de Stich, qui restreint -âl à des formes anciennes.
  • Dans les gentilés qui terminent en -ois en français, en suivant Stich, j’utilise presque toujours -ouès, mais parfois, à la demande de Favre, -ês est choisi.
  • La terminaison -ologo est préférée aux dépens d’-ologue et -ologisto.
  • Il y a de très nombreuses inconsistances dans les toponymes de la Vouiquipèdia, avec, par exemple, quatre formes différentes pour New York, des terminaisons -ia et -ie, -landa et -lande, etc. Stich a bien voulu fournir une liste de tous les états avec ses gentilés, ainsi que de nombreux autres toponymes. Quand même, la Vouiquipèdia est restée une source majeure. Il faudrait encore travailler davantage sur certains toponymes parce que le choix d’a ou â, o ou ô en fin de mot ne semble pas consistant.