Paire Occitan-Français

From Apertium
Revision as of 06:09, 27 March 2022 by Hectoralos (talk | contribs) (Created page with "Cette page documente l'architecture de la paire bidirectionnelle occitan-français. L'occitan est analysé et produit dans deux variétés : languedocien et gascon. La premi...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

Cette page documente l'architecture de la paire bidirectionnelle occitan-français.

L'occitan est analysé et produit dans deux variétés : languedocien et gascon. La première est appelée improprement "occitan" parce qu'elle a été la variété de référence pour Apertium initialement. Le gascon aranais, présent dans les paires catalan-occitan et espagnol-occitan n'est pas actuellement supporté par le traducteur occitan-français.

Histoire

Les premiers traducteurs occitan-catalan et espagnol-catalan sont des premiers développés sur Apertium. Par conséquent, ils étaient (et continuent au printemps 2022) structurés dans un seul répertoire, sans partager le dictionnaire morphologique occitan. Deux variétés occitanes peuvent être produites : le languedocien et l'aranais. Beaucoup plus tard, sur cette base, un répertoire apertium-oci a été créé et, grâce à une bourse Google Summer of Code, en 2018 Claudi Balaguer a développé un traducteur du français à l'occitan languedocien. En 2019 Lo Congrès Permanent de la Lenga Occitana a commencé le développement d'un traducteur bidirectionnel avec le languedocien et le gascon comme variétés source et cible. La première version de ce document-ci est écrit à la veille de la publication de la première version du Congrès pour documenter l'architecture du traducteur.

Dictionnaire bilingue

Il est important à retenir que les différences entre les variétés de l'occitan sont considérables. Chaque variété occitane pose de gros problèmes d'homographie, mais si encore on les combine ensemble sous un fourre-tout "occitan" les problèmes deviennent insolubles. Cela fait que le dictionnaire bilingue n'utilise pas la balise v pour différencier les variétés, bien qu'elle soit utilisée pour d'autres langues où Apertium accepte une multiplicité de variétés, comme le catalan ou le portugais. On utilise ici la balise alt. La balise v="var" fait que la traduction ne puisse être produite que pour la variété "var", mais soit reconnue pour les autres variétés. Par contre, la balise alt="var" fait que la traduction ne soit valable que pour la variété var. Il faut explicitement, dans d'autres lignes, déclarer que la traduction est valable pour d'autres variétés. Par exemple, on a :

<e alt="oci"><p><l>genièr<s n="n"/><s n="m"/></l><r>janvier<s n="n"/><s n="m"/></r></p></e>
<e alt="oci@gascon"><p><l>genèr<s n="n"/><s n="m"/></l><r>janvier<s n="n"/><s n="m"/></r></p></e>

Ceci fait que "genièr" ne soit pas traduit dans un texte gascon, ni "genèr" dans un texte languedocien. C'est ce qui arriverait avec la balise v. Pour ce faire, il faut ajouter deux lignes :

<e alt="oci@gascon" r="LR"><p><l>genièr<s n="n"/><s n="m"/></l><r>janvier<s n="n"/><s n="m"/></r></p></e>
<e alt="oci" r="LR"><p><l>genèr<s n="n"/><s n="m"/></l><r>janvier<s n="n"/><s n="m"/></r></p></e>

Ceci cause, contrairement aux traductions du catalan ou du portugais, que, quand on traduit de l'occitan, il faut choisir si l'on traduit du languedocien ou du gascon.

Tube

Pour une info plus générale, voir Apertium_system_architecture.

Comme toujours chez Apertium, le tube de processus est défini dans le fichier modes.xml.

Français-Occitan

Tagueur

Analyseur

apertium-fra.fra.metadix

Désambiguïsateur par règles

(apertium-fra.fra.rlx)

Désambiguïsateur statistique

(fra-oci.prob)

Assemblage de mots discontinus

(apertium-oci-fra.fra-oci.l1x)

Transfert lexical

 apertium-oci-fra.oci-fra.dix

Sélection lexicale

 apertium-oci-fra.fra-oci.metalrx

Transfert

Chunker

(apertium-oci-fra.fra-oci.t1x)Interchunkinterchunk_bis

Interchunck

Interchunk initial
interchunk_pas
interchunk_pro
interchunk_supersn

(gascon)

interchunk_enon

(gascon)

Postchunk

apertium-oci-fra.fra-oci.t3x

Chunker final

apertium-oci-fra.fra-oci.t4x

Découpage de mots discontinus

(apertium-oci-fra.fra-oci.l2x)

Génération

Générateur morphologique

Pré-post-générateur

(gascon)

Post-générateur