Créer une nouvelle paire de langues

From Apertium
Revision as of 02:02, 21 July 2007 by Youssefsan (talk | contribs) (restore because of spam)
Jump to navigation Jump to search

Apertium est un logiciel de traduction automatique, développé par l'université d'Alicante et financé par le gouvernement. Le code est diffusé sous licence GNU GPL.


Apertium est l'un des deux projets d'OpenTrad. Au départ, le logiciel était conçu pour traduire des textes dans des langues très proches. Aujourd'hui, le logiciel traite des paires langues qui diffèrent davantage, comme par exemple la paire anglais-catalan.

Le logiciel consiste en

  • un moteur de traduction automatique qui ne repose sur aucune langue (humaine) ;
  • d'outils destinés à gérer les données linguistiques nécessaires pour concevoir, pour une paire de langue donnée, un système de traduction automatique ;
  • de données linguistiques pour un nombre toujours croissant de paires de langues.

Installation

Apertium est notamment disponible pour Ubuntu, et pour Ubuntu (Feisty-Universe)

Pour Ubuntu, une version ancienne existe sur http://packages.ubuntu.com/feisty/libs/apertium.

Si l'on veut profiter des dernières versions, il vaut mieux installer par svn. Installer d'abord svn puis taper :

svn co https://apertium.svn.sourceforge.net/svnroot/apertium

Créer une nouvelle paire de langues

Pour créer une nouvelle paire de langues, il faut créer cinq nouveaux fichiers :

  • deux dictionaires monolingues ;
  • un dictionaire bilingue ;
  • deux fichiers de règles de transfert ;

Soient A et B les langues pour lesquelles vous désirez créer une paire. Vous pouvez dans certain cas récupérer un dictionaire monolingue si une paire A-X ou B-X existe déjà (X est une langue quelconque).

Nous allons prendre comme exemple la création de la paire français-néerlandais. Nous utiliserons comme abréviation fr pour le français et nl pour le néerlandais. Donc, si vous avez bien suivi, il faudra créer

  • un dictionnaire monolingue nl
  • un dictionnaire bilingue fr-nl
  • un fichier de règles de transfer fr-->nl
  • un fichier de règles de transfer nl-->fr

Nous devons pas créer le dictionaire monloingue fr, car fr-es

Commençons par créer le dictionnaire monolingue nl

Le jargon

Avant de poursuivre notre exposé, nous allons expliquer deux termes que nous utiliserons par la suite.

Le premier terme est lemme, il s'agit de la « forme dictionnaire » d'un mot, c'est-à-dire la forme sous laquelle ce mot apparaît dans un dictionnaire. Par exemple pour un nom comme ce sera le singulier, pour un adjectif le masculin singulier et pour un verbe l'infinitif.

Le deuxième concepte que nous devons aborder est celui de symbole, symbole désigne la catégorie grammaticale sous forme abregée. Comme le logiciel a été initialement développé en Espagne, les abréviations proviennent souvent du catalan.

Dictionnaire monolingue nl

Le dictionnaire est un fichier xml sous unicode (UTF-8)


Créons un fichier texte avec votreéditeur de texte préféré (notepad, gedit, kedit, etc)

Taper le texte

<?xml version="1.0" encoding="UTF-8"?>
<dictionary>
</dictionary>

Sauver le texte sous le nom de « apertium-fr-nl.nl.dix »


Il convient ensuite de remplir l'espace entre <pre><sdefs> </sdefs>

Pour cela tapons

<sdefs>

</sdefs>

Abréviations utilisées

  • dix : dictionary (dictionnaire)
  • fr : français
  • nl : néerlandais

Liens externes

Sources