Devenir un développeur de paire de langues pour Apertium

From Apertium
Revision as of 12:17, 20 March 2012 by Bech (talk | contribs) (Création page)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

Ceci est guide pas à pas en 3 parties, sur la manière d'utiliser une version de développement d'Apertium pour modifier une paire de langues. Ces instructions supposent que vous utilisez Ubuntu ou Debian; sinon regardez la page d'Installation (français) pour une installation sur d'autres OS comme Installation locale sur Mac OS X et Installation système sur Mac OS X ou Installation sur Windows en utilisant cygwin .

Introduction

Lorsque vous devenez un développeur Apertium il y a 2 options comme vous savez pour récupérer Apertium. Vous pouvez utiliser le terminal pour obtenir les versions les plus à jour ou le gestionnaire de paquet Synaptic peut être utilisé pour obtenir des versions de développement qui ne sont pas aussi à jour. Il y a du pour et du contre dans les deux cas, toutefois, la méthode terminal est plus pour ceux qui ont l'intention de soumettre leur travail alors que l'utilisation du gestionnaire de paquet est normalement plus simple et vous utilisez une interface graphique au lieu de la ligne de commande. Vous aurez aussi besoin d'un éditeur de texte ou d'XML, une compréhension globale des langues que vous souhaitez développer, et pour ceux qui souhaitent contribuer aux langues de leur choix, un accès en écriture sur SourceForge est nécessaire.

Se préparer

Méthode 1 : TERMINAL

Étape 1 : Récupérer les pré-requis

Une version de développement d'Apertium et la paire de langues que vous voulez modifier doit d'abord être installée sur votre ordinateur avant que vous puissiez changer quelque-chose à la paire de langues. Si vous cherchez à faire l'installation sur une distribution de Linux autre qu'Ubuntu vous pouvez trouver les instructions ici sur le wiki pour Installation sur Arch Linux, Installation sur Fedora, et Installation sur openSUSE. Il n'y a pour l'instant pas de méthode pour l'Installation sur Mandriva.

Commencez en ouvrant un nouveau terminal.

Ensuite, utilisez cette commande pour installer les pré-requis :

sudo apt-get install subversion build-essential g++ pkg-config gawk libxml2 \
> libxml2-dev libxml2-utils xsltproc flex automake autoconf libtool libpcre3-dev

Le terminal vous demandera alors votre mot de passe pour commencer.

Note: gardez une trace dans votre tête de ce que vous tapez comme mot de passe. Le terminal n'affichera pas les caractères entrés pour votre mot de passe pour des raisons de sécurité.

Après avoir entré votre mot de passe, appuyez sur la touche "Entrée" et attendez que votre ordinateur télécharge et installe les paquets.

Étape 2 : Récupérer Apertium, lttoolbox, et votre/vos paire(s) de langues

En utilisant le même terminal, vous pouvez télécharger la totalité de l'arborescence des paires de langues depuis SVN en utilisant la commande :

svn co https://apertium.svn.sourceforge.net/svnroot/apertium

Souvenez-vous que l'arborescence complète dépasse les 4 Goctets. Si vous avez une connexion lente, un espace disque limité, ou un quota de transfert de données limité, installer toute l'arborescence n'est pas recommandé. Toutefois, si vous voulez vous concentrer sur in petit nombre de paires de langues vous pouvez facilement télécharger et ajouter des paires de langues avec une commande comme :

svn co https://apertium.svn.sourceforge.net/svnroot/apertium/trunk/<nom_module>

Note: Cette commande ne télécharge qu'un module à la fois. Pour un ensemble d'instructions plus complet sur l'utilisation effective de SVN, voir la page Utiliser SVN.

A l'endroit marqué <nom_module>, vous pouvez remplacer ce texte par le module que vous voulez utiliser comme le module espagnol/anglais qui s'appelle apertium-en-es.

Les commandes suivantes téléchargent Apertium, lttoolbox, et la paire de langues que vous voulez utiliser.

svn co http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/lttoolbox
svn co http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium
svn co https://apertium.svn.sourceforge.net/svnroot/apertium/trunk/<nom_module>

Par exemple, si vous vouliez récupérer Apertium, lttoolbox, et le module espagnol/anglais vous pourriez taper :

svn co http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/lttoolbox
svn co http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium
svn co https://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium-en-es

Note: Vous pouvez trouver une liste complète de modules dans https://apertium.svn.sourceforge.net/svnroot/apertium/trunk/.

Normalement, Apertium est installé dans le répertoire /usr/local. Toutefois, si vous voulez l'installer ailleurs ou si vous ne voulez pas l'installer en temps que root, entrer :

PREFIX=/chemin/où/je/veux/Apertium
PKG_CONFIG_PATH=$PREFIX/lib/pkgconfig
export PKG_CONFIG_PATH

Alors, depuis le répertoire de lttoolbox et apertium, faire :

./autogen.sh --prefix=$PREFIX
make
make install
ldconfig

Attention : Si vous n'avez pas spécifié $PREFIX ou ne savez pas ce qu'il signifie alors entrer :

./autogen.sh 
make
make install
ldconfig

(Si vous n'avez pas spécifié de préfixe, utilisez sudo avant les deux dernières commandes.)

Ensuite, dans le répertoire de la paire de langue apertium-xx-yy (avec 2 codes de langue à la place de xx et yy), entrer :

./autogen.sh --prefix=$PREFIX
make
make install

(Utilisez sudo avant la dernière commande si vous n'avez pas spécifié de préfixe.)

Étape finale : Compilation et Installation

D'abord, vous avez besoin de compiler lttoolbox, Apertium, et votre paire de langues et de les installer. Pour ça on utilisera :

cd apertium
cd lttoolbox/
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig ./autogen.sh
make
sudo make install
sudo ldconfig

, pour lttoolbox. Puis :

cd ..
cd apertium/
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig ./autogen.sh
make
sudo make install
sudo ldconfig

pour Apertium. Et finalement :

cd ..
cd <nom_module>/
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig ./autogen.sh
make
sudo make install

pour votre paire de langues qui remplaces le texte <nom_module>.

Pour davantage instruction, si nécessaire, voir Installation sur Ubuntu ou Debian.

Méthode 2 : GESTIONNAIRE DE PAQUET

Utiliser le gestionnaire de paquet Synaptic pour télécharger et installer Apertium, lttoolbox, et votre paire de langues est considérablement plus facile que la méthode avec terminal, toutefois, votre choix de paires de langues est limité, vous pourriez être incapable d'enregistrer les modification, et il pourrait y avoir d'autres défauts ou bugs mineurs. Synaptic est disponible sur Ubuntu et Debian et ses dérivés. On trouve des gestionnaires de paquet équivalents sur d'autres systèmes dont paquetKit et Kpaquet. Si votre distribution de Linux ne possède pas de paquet Apertium dans son gestionnaire alors ils peuvent être téléchargés depuis SourceForge.

Étape 1 : Récupérez vos paquets

A début, commencez par trouver le gestionnaire de paquet Synaptic et ouvrez-le.

Ensuite, utilisez la boite de recherche (ou tapez Ctrl+F) et tapez "apertium".

Synaptic devrait donner une liste de tout ce qui est en relation avec Apertium. Cette liste devrait inclure des paires de langues, les versions de développement de lttoolbox et libapertium, aussi bien que les paquets de base d'Apertium et plusieurs autres.

Étape finale : Compilation et Installation

Heureusement, Synaptic prend soin de récupérer les pré-requis, dépendances, et autres paquets nécessaires. Tout ce que vous avez à faire est de sélectionner de quels paquets vous avez besoin et demander à Synaptic de les télécharger et les installer. Il pourrait être possible que Synaptic télécharge votre paire de langues, Apertium, lttoolbox, et les dépendances correspondantes d'un coup, toutefois, le temps économisé serait très faible.

Commencez par sélectionner la boite "apertium" et choisissez "Mark for Installation" depuis le menu. (un clic gauche et un clic droit à la fois les met en bas dans le menu. (??))

Synaptic vous informera des dépendances d'Apertium et vous demandera si vous voulez les marquer (choisir ?). Cliquez sur "Mark" (ou un équivalent en français) en bas à droite de la boite pop-up.

Les paquets requis (lttoolbox, libapertium, et liblttoolbox) seront maintenant marqués aussi bien qu'Apertium.

Maintenant vous pouvez sélectionner votre paire de langues. Note: Quelques paires de langues ne sont pas disponibles par cette méthode. Celles qui sont disponibles comprennent : en-es fr-es es-pt es-ca es-gl pt-gl eo-ca eo-es en-ca oc-es fr-ca es-ro eu-es oc-ca.

Téléchargez et and installez les paquets sélectionnés.

Synaptic vous informera quand ce sera fait.

Maintenant vous pouvez installer les paquets de développement (libapertium3-3.1-0-dev et liblttoolbox3-3.1-0-dev) en utilisant les mêmes procédures.

IMPORTANT: Les versions disponibles des paquets peuvent être limitées par la version de l'OS que vous utilisez.

Changer des choses

Quand vous voulez faire une modification dans Apertium, vous voudrez probablement ajouter un mot à une paire de langues existante. Pour une explication complète voir Comment contribuer à une paire de langues existante. Vous pouvez voir la page Contact (français) pour les listes de discussion Apertium et l'aide en ligne par l'IRC.

IMPORTANT: Rajouter un mot ne donnera rien si vous ne recompilez pas les modules après avoir fait la modification. Utilisez simplement le terminal comme avant et entrez : make <nom_module> et appuyez sur la touche "Entrée" et votre ordinateur créera les nouveaux fichiers nécessaires.


Il y a 3 étapes principales pour ajouter un nouveau mot à une paire de langues :

1. Ajouter une entrée dans le dictionnaire de la première langue qui sera utilisée.

2. Ajouter une entrée dans le dictionnaire bilingue de la paire.

3. Ajouter une entrée dans le dictionnaire de la deuxième langue qui sera utilisée.

Vous aurez besoin de trouver le module sur lequel vous voulez travailler avec votre ordinateur et d'ouvrir les trois dictionnaires; par exemple: apertium-es-ca.es.dix, apertium-es-ca.es-ca.dix, et apertium-es-ca.ca.dix. Note: Chaque dictionnaire aura le suffixe ".dix" Vous devriez ouvrir ces fichiers dans un éditeur de texte ou un éditeur spécialisé XML.

Étape 1 : Ajout au premier dictionnaire

Lorsque vous rajoutez des entrées, vous devez entrer le lemme (mot que vous pourriez lire dans un dictionnaire), la partie entre <i> et </i> qui contient le préfixe du mot qui est commun à toutes les formes infléchies, et l'élément dans <par> qui se réfère au paradigme d'inflection de ce mot. Toutes les entrées auront une structure de base comme :

      <e lm="(lemme)">
        <i>(préfixe)</i>
        <par n="(paradigme)"/>
      </e>

Un bon exemple de cela serait :

      <e lm="cósmico">
        <i>cósmic</i>
        <par n="absolut/o__adj"/>
      </e>

Commencez par ouvrir votre premier fichier dictionnaire de langue. Par exemple: apertium-en-es.es.dix (un fichier XML fichier).

Ensuite, créez une nouvelle entrée avec la structure de base proche d'une entrée similaire dans le dictionnaire. L'ordre des entrées n'a pas d'importance.

Maintenant, entre les guillemets dans la zone marquée (lemme) remplacez (lemme) par votre mot. Note: Ne mettez pas les () dans les entrées, mais placez l'entrée entre "".

A présent, vous pouvez entrer le préfixe entre <i> et </i> à la place de (préfixe).

Finalement, entrez le paradigme dans <par> entre les double guillemets. Le paradigme devrait être constitué du préfixe d'un autre mot qui a la même inflection, est déjà dans le dictionnaire et possède les analyses morphologiques : adj m sg, adj f sg, adj m pl and adj f pl respectivement. Par exemple : <par n="absolut/o__adj"/> pour cósmico. Cette entrée signifie que l'adjectif "cósmico" s'infléchit comme l'adjectif "absoluto" et possède la même analyse morphologique : les formes cósmico, cósmica, cósmicos, et cósmicas sont équivalentes aux formes absoluto, absoluta, absolutos, et absolutas et ont les analyses morphologiques : adj m sg, adj f sg, adj m pl et adj f pl respectivement.

Maintenant, sauvegardez votre dictionnaire modifié, et NE changez PAS le nom du fichier, le répertoire, ou le type de fichier.

Pour terminer, utilisez le terminal et naviguez dans le répertoire où votre module est hébergé et tapez make. Maintenant pressez sur la touche "Entrée" pour autoriser votre ordinateur à recompiler le module avec les changements que vous venez de faire.

Étape 2 : Ajout au deuxième dictionnaire

En utilisant la même structure, vous pouvez créer une entrée dans votre deuxième dictionnaire de langue qui est l'équivalent de votre entrée dans le premier dictionnaire.

Le deuxième nom de fichier dictionnaire de langue devrait être quelque-chose comme apertium-en-es.en.dix.

Sauvez vos modifications et recompilez le module.

Étape finale : Le dictionnaire bilingue

Rajouter des entrées dans le dictionnaire bilingue est considérablement plus facile que de rajouter dans les deux autres dictionnaires. Une entrée dans ce dictionnaire possède la structure de base :

     <e> 
        <p>
          <l>(lemme_dictionnaire1)<s n="(partie_de_discours)"/></l>
          <r>(lemme_dictionnaire2)<s n="(partie_de_discours)"/></r>
        </p>
      </e>

Rajoutez simplement une entrée et remplacez (lemme_dictionnaire1) avec le lemme que vous avez rajouté au premier dictionnaire, (lemme_dictionnaire2) avec le lemme que vous avez rajouté au second, et (partie_de_discours) avec la partie de discours de chaque mot.

Sauvez ce dictionnaire et recompilez le module une dernière fois.

Le rajout de règles pour une paire de langues peut aussi être réalisé, toutefois, ce ne sera pas abordé dans cette page. Voir Comment contribuer à une paire de langues existante pour une explication plus détaillée et plus complète.

Erreurs

Il est très possible que vous rencontriez une erreur dans vos modifications.

Pour savoir comment un mot est analysé par le traducteur et trouver une erreur, tapez ce qui suit dans le terminal (exemple dans Comment contribuer à une paire de langues existante#Détection des erreurs suivez ce lien pour davantage d'aide) :

$ echo "gener" | apertium-destxt | lt-proc ca-es.automorf.bin

Vous pouvez remplacer ca-es avec la direction de traduction que vous voulez tester.

La sortie dans Apertium devrait être :

^gener/gener<n><m><sg>$^./.<sent>$[][]

La structure de la chaîne est : ^mot/lemme<analyse morphologique>$. La balise <sent> est l'analyse du point, comme chaque fin de phrase est représentée par un point par le système, que ce soit ou non explicitement indiqué dans la phrase.

L'analyse d'un mot inconnu est (en ignorant l'information du point) :

^genoma/*genoma$

et l'analyse d'un mot ambigu :

^casa/casa<n><f><sg>/casar<vblex><pri><p3><sg>/casar<vblex><imp><p2><sg>$

Chaque forme lexicale (lemme plus analyse morphologique) est présentée comme une analyse possible du mot casa.

Si vous êtes toujours bloqué rappelez-vous que vous pouvez toujours poser des questions sur IRC.

Montrez-le au monde

Maintenant que vous avez rajouté quelque-chose à une paire de langues vous avez la possibilité d'enregistrer vos modifications sur SourceForge (si vous avez utilisé la méthode 1 pour l'installation). Enregistrer une modification sur une paire de langues est même plus facile que de la faire.

D'abord, vous avez besoin de vous enregistrer pour avoir un compte SourceForge gratuit. Ensuite, contactez un administrateur Apertium ici et demandez l'accès en écriture au SVN de SourceForge.

Une fois l'accès accordé, ouvrez simplement le terminal, naviguez dans votre paire de langues qui a été modifiée, et tapez :

svn commit

Pensez à inclure un message de log détaillant ce qui a été changé ou rajouté.

Il est également possible que svn commit soit suivi par -m "message”. C'est quelquefois plus facile que d'avoir un éditeur ouvert automatiquement.

Vous êtes maintenant devenu un développeur de paires de langues pour Apertium !