Devenir un développeur de paire de langues pour Apertium

From Apertium
Jump to: navigation, search

In English

Ceci est guide pas à pas en 3 parties, sur la manière d'utiliser une version de développement d'Apertium pour modifier une paire de langues. Ces instructions supposent que vous utilisez Ubuntu ou Debian; sinon regardez la page d'Installation (français) pour une installation sur d'autres OS comme Installation locale sur Mac OS X et Installation système sur Mac OS X ou Installation sur Windows en utilisant cygwin .

Contents

[edit] Introduction

Lorsque vous devenez un développeur Apertium il y a 2 options comme vous savez pour récupérer Apertium. Vous pouvez utiliser le terminal pour obtenir les versions les plus à jour ou le gestionnaire de paquet Synaptic peut être utilisé pour obtenir des versions de développement qui ne sont pas aussi à jour. Il y a du pour et du contre dans les deux cas. Toutefois, la méthode terminal est plus pour ceux qui ont l'intention de soumettre leur travail, alors que l'utilisation du gestionnaire de paquet est normalement plus simple et vous permet d'utilisez une interface graphique au lieu de la ligne de commande. Vous aurez aussi besoin d'un éditeur de texte ou d'XML, une compréhension globale des langues que vous souhaitez développer, et pour ceux qui souhaitent contribuer aux langues de leur choix, un accès en écriture sur SourceForge est nécessaire.

[edit] Se préparer

[edit] Méthode 1 : TERMINAL

[edit] Étape 1 : Récupérer les pré-requis

Une version de développement d'Apertium et la paire de langues que vous voulez modifier doit d'abord être installée sur votre ordinateur avant que vous puissiez changer quelque-chose à la paire de langues. Si vous cherchez à faire l'installation sur une distribution de Linux autre qu'Ubuntu vous pouvez trouver les instructions ici sur le wiki pour Installation sur Arch Linux, Installation sur Fedora, et Installation sur openSUSE. Il n'y a pour l'instant pas de méthode pour l'Installation sur Mandriva.

Commencez en ouvrant un nouveau terminal.

Ensuite, utilisez cette commande pour installer les pré-requis :

sudo apt-get install subversion build-essential g++ pkg-config gawk libxml2 \
> libxml2-dev libxml2-utils xsltproc flex automake autoconf libtool libpcre3-dev

Le terminal vous demandera alors votre mot de passe pour commencer.

Note: gardez une trace dans votre tête de ce que vous tapez comme mot de passe. Le terminal n'affichera pas les caractères entrés pour votre mot de passe pour des raisons de sécurité.

Après avoir entré votre mot de passe, appuyez sur la touche "Entrée" et attendez que votre ordinateur télécharge et installe les paquets.

[edit] Étape 2 : Récupérer Apertium, lttoolbox, et d'autres outils utiles

En utilisant le même terminal, vous pouvez télécharger la totalité de l'arborescence des outils et des paires de langues depuis SVN en utilisant la commande :

svn checkout https://apertium.svn.sourceforge.net/svnroot/apertium

Souvenez-vous que l'arborescence complète dépasse les 4 Goctets. Si vous avez une connexion lente, un espace disque limité, ou un quota de transfert de données limité, installer toute l'arborescence n'est pas recommandé. En plus, les paires de langues évoluent rapidement et si vous voulez modifier l'une d'elle, il vous faudra travailler avec la dernière version !

Les commandes suivantes téléchargent Apertium et lttoolbox, qui sont indispensables aussi bien pour le développement de paires de langues que pour l'utilisation d'Apertium comme traducteur :

svn checkout http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/lttoolbox
svn checkout http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium

Comme vous allez développer des paires de langues, c'est une bonne idée de récupérer apertium-dixtools qui permet de faire des traitements automatiques sur les fichiers dictionnaires, par exemple de trier les mots par ordre alphabétique :

svn checkout http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium-dixtools

Enfin, certaines paires de langues comme apertium-eo-fr (esperanto et français) nécessitent d'installer également la version écrite en java de lttoolbox :

svn checkout http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/lttoolbox-java

[edit] Étape 3 : Compilation et installation d'Apertium, lttoolbox, et des autres outils

D'abord, vous avez besoin de compiler lttoolbox et Apertium. Pour ça on utilisera :

cd apertium
cd lttoolbox
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
./autogen.sh
make
sudo make install
sudo ldconfig

, pour lttoolbox. Puis de manière similaire :

cd ..
cd apertium
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
./autogen.sh
make
sudo make install
sudo ldconfig

pour Apertium.

Remarque : Si vous êtes le seul utilisateur de l'ordinateur, vous pouvez souhaiter lancer la commande make install en temps qu'utilisateur normal (sans la commande sudo). Dans ce cas, il vous faudra un droit en écriture sur /usr/local et quelques sous répertoires. Le plus simple est de prendre la propriété de ces répertoires :

cd /usr/local
sudo chown <votre_login>:<votre_groupe> . bin lib share

Par exemple sur mon propre ordinateur :

cd /usr/local
sudo chown bernard:user . bin lib share

La compilation de lttoolbox-java est similaire aux deux compilations précédentes. Mais vous devrez disposer sur votre ordinateur d'une version du JDK java à partir de la version 1.6 . Si ce n'est pas le cas, vous pouvez directement télécharger et installer le JDK 1.7 (attention pas le JRE !) qui fonctionne très bien.

Voici un lien pour le jdk 1.7 : http://www.oracle.com/technetwork/java/javase/downloads/java-se-jdk-7-download-432154.html

Après quoi, compilez de la même manière :

cd ..    # en supposant que vous êtes dans un sous répertoire d'apertium, pas dans /usr/local
cd lttoolbox-java
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
./autogen.sh
make
sudo make install  # ou make install si vous avez choisi de suivre la remarque précédente
sudo ldconfig

Il vous restera à compiler apertium-dixtools (recommandé mais pas indispensable). La manière de le faire est différente :

cd ..
cd apertium-dixtools
ant jar

Vous pouvez aussi construire et installer en utilisant Maven 2 (http://maven.apache.org), en tapant :

cd ..
cd apertium-dixtools
mvn install

Plus de détails dans ce paragraphe.

Sauf changement majeur, vous ne devriez pas avoir besoin de réinstaller souvent ces différents outils.

[edit] Étape 4 : Récupérer votre/vos paire(s) de langues

En utilisant le même terminal, vous pouvez facilement télécharger et ajouter les paires de langues qui vous intéressent avec une commande comme :

svn checkout https://svn.code.sf.net/p/apertium/svn/<nom_branche>/<nom_paire>

A l'endroit marqué <nom_branche>, remplacez ce texte par le nom du sous-répertoire de svn où est installé la paire de langue choisie.

A l'endroit marqué <nom_paire>, remplacez ce texte par le nom de la paire de langue choisie.

Par exemple, si vous vouliez récupérer la paire de langues espagnol/anglais (qui est dans trunk) et français/portugais (qui est dans staging en juin 2012) vous pourriez taper :

svn checkout https://svn.code.sf.net/p/apertium/svn/trunk/apertium-en-es
svn checkout https://svn.code.sf.net/p/apertium/svn/staging/apertium-fr-pt

Note: Vous pouvez trouver la liste complète de paires de langues validées dans la partie trunk du dépôt. Mais il existe d'autres paires de langues au développement moins avancé. Voir Classement des paires de langues selon leur état d'avancement ainsi que Liste des paires de langues.

[edit] Étape finale : Compilation et installation de vos paires de langues

La compilation et l'installation d'une paire de langues est similaire à celle de lttoolbox et Apertium. Il y a juste l'instruction sudo ldconfig en moins. Pour ça on utilisera :

cd apertium  # ou cd .. selon l'endroit où vous êtes
cd <nom_paire>
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
./autogen.sh
make
sudo make install  # ou make install si vous avez choisi de suivre la remarque précédente

pour chaque paire de langue récupérée en remplaçant le texte <nom_paire> par le nom adéquat.

Pour davantage instruction, si nécessaire, voir Installation sur Ubuntu ou Debian.

[edit] Méthode 2 : GESTIONNAIRE DE PAQUET

Utiliser le gestionnaire de paquet Synaptic pour télécharger et installer Apertium, lttoolbox, et votre paire de langues est considérablement plus facile que la méthode avec terminal, toutefois, votre choix de paires de langues est limité, vous pourriez être incapable d'enregistrer les modification, et il pourrait y avoir d'autres défauts ou bugs mineurs. Synaptic est disponible sur Ubuntu et Debian et ses dérivés. On trouve des gestionnaires de paquet équivalents sur d'autres systèmes dont paquetKit et Kpaquet. Si votre distribution de Linux ne possède pas de paquet Apertium dans son gestionnaire alors ils peuvent être téléchargés depuis SourceForge.

[edit] Étape 1 : Récupérez vos paquets

A début, commencez par trouver le gestionnaire de paquet Synaptic et ouvrez-le.

Ensuite, utilisez la boite de recherche (ou tapez Ctrl+F) et tapez "apertium".

Synaptic devrait donner une liste de tout ce qui est en relation avec Apertium. Cette liste devrait inclure des paires de langues, les versions de développement de lttoolbox et libapertium, aussi bien que les paquets de base d'Apertium et plusieurs autres.

[edit] Étape finale : Compilation et Installation

Heureusement, Synaptic prend soin de récupérer les pré-requis, dépendances, et autres paquets nécessaires. Tout ce que vous avez à faire est de sélectionner de quels paquets vous avez besoin et demander à Synaptic de les télécharger et les installer. Il pourrait être possible que Synaptic télécharge votre paire de langues, Apertium, lttoolbox, et les dépendances correspondantes d'un coup, toutefois, le temps économisé serait très faible.

Commencez par sélectionner la boite "apertium" et choisissez "Mark for Installation" depuis le menu. (un clic gauche et un clic droit à la fois les met en bas dans le menu. (??))

Synaptic vous informera des dépendances d'Apertium et vous demandera si vous voulez les marquer (choisir ?). Cliquez sur "Mark" (ou un équivalent en français) en bas à droite de la boite pop-up.

Les paquets requis (lttoolbox, libapertium, et liblttoolbox) seront maintenant marqués aussi bien qu'Apertium.

Maintenant vous pouvez sélectionner votre paire de langues. Note: De nombreuses paires de langues ne sont pas disponibles par cette méthode. Celles qui sont disponibles comprennent : en-es fr-es es-pt es-ca es-gl pt-gl eo-ca eo-es en-ca oc-es fr-ca es-ro eu-es oc-ca.

Téléchargez et installez les paquets sélectionnés.

Synaptic vous informera quand ce sera fait.

Maintenant vous pouvez installer les paquets de développement (libapertium3-3.1-0-dev et liblttoolbox3-3.1-0-dev) en utilisant les mêmes procédures.

IMPORTANT : Les versions disponibles des paquets peuvent être limitées par la version de l'OS que vous utilisez.

TRES IMPORTANT : Si vous avez récupéré une paire de langues au moyen de Synaptic (ou plus généralement ailleurs que dans le dépôts SVN du projet Apertium), vous pouvez l'utiliser pour vos propres traductions, mais vous aurez de la chance s'il s'agit de la dernière version. Le but de cette page étant de vous indiquer comment améliorer une paire de langues, vous devriez d'abord éviter de modifier une paire obsolète ! Pour cette raison, n'utilisez que la méthode 1 pour récupérer des paires de langues que vous voulez modifier.

[edit] Changer des choses

Quand vous voulez faire une modification dans Apertium, vous voudrez probablement ajouter un mot à une paire de langues existante. Pour une explication complète voir Comment contribuer à une paire de langues existante. Vous pouvez voir la page Contact (français) pour les listes de discussion Apertium et l'aide en ligne par l'IRC.

IMPORTANT: Rajouter un mot ne donnera rien si vous ne recompilez pas les modules après avoir fait la modification. Utilisez simplement le terminal comme avant et entrez : make <nom_module> et appuyez sur la touche "Entrée" et votre ordinateur créera les nouveaux fichiers nécessaires.


Il y a 3 étapes principales pour ajouter un nouveau mot à une paire de langues :

1. Ajouter une entrée dans le dictionnaire de la première langue qui sera utilisée.

2. Ajouter une entrée dans le dictionnaire bilingue de la paire.

3. Ajouter une entrée dans le dictionnaire de la deuxième langue qui sera utilisée.

Vous aurez besoin de trouver le module sur lequel vous voulez travailler avec votre ordinateur et d'ouvrir les trois dictionnaires; par exemple: apertium-es-ca.es.dix, apertium-es-ca.es-ca.dix, et apertium-es-ca.ca.dix. Note: Chaque dictionnaire aura le suffixe ".dix" Vous devriez ouvrir ces fichiers dans un éditeur de texte ou un éditeur spécia lisé XML.

[edit] Étape 1 : Ajout au premier dictionnaire

Lorsque vous rajoutez des entrées, vous devez entrer le lemme (mot que vous pourriez lire dans un dictionnaire), la partie entre <i> et </i> qui contient le préfixe du mot qui est commun à toutes les formes infléchies, et l'élément dans <par> qui se réfère au paradigme d'inflection de ce mot. Toutes les entrées auront une structure de base comme :

      <e lm="(lemme)">
        <i>(préfixe)</i>
        <par n="(paradigme)"/>
      </e>

Un bon exemple de cela serait :

      <e lm="cósmico">
        <i>cósmic</i>
        <par n="absolut/o__adj"/>
      </e>

Commencez par ouvrir votre premier fichier dictionnaire de langue. Par exemple: apertium-en-es.es.dix (un fichier XML fichier).

Ensuite, créez une nouvelle entrée avec la structure de base proche d'une entrée similaire dans le dictionnaire. L'ordre des entrées n'a pas d'importance.

Maintenant, entre les guillemets dans la zone marquée (lemme) remplacez (lemme) par votre mot. Note: Ne mettez pas les () dans les entrées, mais placez l'entrée entre "".

A présent, vous pouvez entrer le préfixe entre <i> et </i> à la place de (préfixe).

Finalement, entrez le paradigme dans <par> entre les double guillemets. Le paradigme devrait être constitué du préfixe d'un autre mot qui a la même inflection, est déjà dans le dictionnaire et possède les analyses morphologiques : adj m sg, adj f sg, adj m pl and adj f pl respectivement. Par exemple : <par n="absolut/o__adj"/> pour cósmico. Cette entrée signifie que l'adjectif "cósmico" s'infléchit comme l'adjectif "absoluto" et possède la même analyse morphologique : les formes cósmico, cósmica, cósmicos, et cósmicas sont équivalentes aux formes absoluto, absoluta, absolutos, et absolutas et ont les analyses morphologiques : adj m sg, adj f sg, adj m pl et adj f pl respectivement.

Maintenant, sauvegardez votre dictionnaire modifié, et NE changez PAS le nom du fichier, le répertoire, ou le type de fichier.

Pour terminer, utilisez le terminal et naviguez dans le répertoire où votre module est hébergé et tapez make. Maintenant pressez sur la touche "Entrée" pour autoriser votre ordinateur à recompiler le module avec les changements que vous venez de faire.

[edit] Étape 2 : Ajout au deuxième dictionnaire

En utilisant la même structure, vous pouvez créer une entrée dans votre deuxième dictionnaire de langue qui est l'équivalent de votre entrée dans le premier dictionnaire.

Le deuxième nom de fichier dictionnaire de langue devrait être quelque-chose comme apertium-en-es.en.dix.

Sauvez vos modifications et recompilez le module.

[edit] Étape finale : Le dictionnaire bilingue

Rajouter des entrées dans le dictionnaire bilingue est considérablement plus facile que de rajouter dans les deux autres dictionnaires. Une entrée dans ce dictionnaire possède la structure de base :

     <e> 
        <p>
          <l>(lemme_dictionnaire1)<s n="(partie_de_discours)"/></l>
          <r>(lemme_dictionnaire2)<s n="(partie_de_discours)"/></r>
        </p>
      </e>

Rajoutez simplement une entrée et remplacez (lemme_dictionnaire1) avec le lemme que vous avez rajouté au premier dictionnaire, (lemme_dictionnaire2) avec le lemme que vous avez rajouté au second, et (partie_de_discours) avec la partie de discours de chaque mot.

Sauvez ce dictionnaire et recompilez le module une dernière fois.

Le rajout de règles pour une paire de langues peut aussi être réalisé, toutefois, ce ne sera pas abordé dans cette page. Voir Comment contribuer à une paire de langues existante pour une explication plus détaillée et plus complète.

[edit] Erreurs

Il est très possible que vous rencontriez une erreur dans vos modifications.

Pour savoir comment un mot est analysé par le traducteur et trouver une erreur, tapez ce qui suit dans le terminal (exemple dans Comment contribuer à une paire de langues existante#Détection des erreurs suivez ce lien pour davantage d'aide) :

$ echo "gener" | apertium-destxt | lt-proc ca-es.automorf.bin

Vous pouvez remplacer ca-es avec la direction de traduction que vous voulez tester.

La sortie dans Apertium devrait être :

^gener/gener<n><m><sg>$^./.<sent>$[][]

La structure de la chaîne est : ^mot/lemme<analyse morphologique>$. La balise <sent> est l'analyse du point, comme chaque fin de phrase est représentée par un point par le système, que ce soit ou non explicitement indiqué dans la phrase.

L'analyse d'un mot inconnu est (en ignorant l'information du point) :

^genoma/*genoma$

et l'analyse d'un mot ambigu :

^casa/casa<n><f><sg>/casar<vblex><pri><p3><sg>/casar<vblex><imp><p2><sg>$

Chaque forme lexicale (lemme plus analyse morphologique) est présentée comme une analyse possible du mot casa.

Si vous êtes toujours bloqué rappelez-vous que vous pouvez toujours poser des questions sur IRC.

[edit] Montrez-le au monde

Maintenant que vous avez rajouté quelque-chose à une paire de langues vous avez la possibilité d'enregistrer vos modifications sur SourceForge (si vous avez utilisé la méthode 1 pour l'installation). Enregistrer une modification sur une paire de langues est même plus facile que de la faire.

D'abord, vous avez besoin de vous enregistrer pour avoir un compte SourceForge gratuit. Ensuite, contactez un administrateur Apertium ici et demandez l'accès en écriture au SVN de SourceForge.

Une fois l'accès accordé, ouvrez simplement le terminal, naviguez dans votre paire de langues qui a été modifiée, et tapez :

svn commit

Pensez à inclure un message de log détaillant ce qui a été changé ou rajouté.

Il est également possible que svn commit soit suivi par -m "message”. C'est quelquefois plus facile que d'avoir un éditeur ouvert automatiquement.

Vous êtes maintenant devenu un développeur de paires de langues pour Apertium !

Personal tools