Bech: Lien page anglaise

2014-10-08T08:43:07Z

Lien page anglaise

Bech: Création page

2012-03-18T19:34:49Z

Création page

New page

'''GIZA++''' est un programme pour aligner les mots et les séquences de mots dans les corpus de phrases alignées. Si vous avez un corpus parallèle vous pouvez utiliser GIZA++ pour faire des dictionnaires bilingues pour Apertium (par exemple en utilisant [[l'outil ReTraTos]]).

== Compilation ==

[http://code.google.com/p/giza-pp/ Téléchargez] et compilez GIZA++.

Note: Si vous utilisez un système de fichiers qui ne distingue pas majuscules et minuscules (typiquement pour Mac OS) il vous faudra éditer le fichier <code>model3.cpp</code> avant de le compiler, car il génère deux fichiers appelés <code>foo.a3.final</code> et <code>foo.A3.final</code>. Donc avant de compiler, changer par exemple les lignes 321--322 :
<pre>
alignfile = Prefix + ".A3." + number ;
test_alignfile = Prefix + ".tst.A3." + number ;
</pre>
en quelque-chose comme
<pre>
alignfile = Prefix + ".AA3." + number ;
test_alignfile = Prefix + ".tst.AA3." + number ;
</pre>

== Utilisation ==

Téléchargez votre corpus, et convertissez-le avec une phrase par ligne.

Utilisez <code>plain2snt.out</code> pour convertir votre corpus dans le format GIZA++ :

<pre>
$ plain2snt.out sv-text.txt da-text.txt
w1:sv-text w2:da-text
sv-text -> sv-text
da-text -> da-text
</pre>

Vous pourriez obtenir quelques avertissements au sujet des phrases vides comme ceux-ci :

<pre>
WARNING: filtered out empty sentence (source: sv-text.txt 23 target: da-text.txt 0).
WARNING: filtered out empty sentence (source: sv-text.txt 34 target: da-text.txt 0).
</pre>

Si c'est un gros corpus vous pourrez obtenir beaucoup d'avertissements... — si vous avez ''beaucoup'' d'avertissements, envisagez de changer le corpus.

Après l'avoir fait, vous devriez avoir un couple de fichiers <code>.snt</code> et un couple de fichiers <code>.vcb</code>.

Ensuite il vous faut générer les classes de mots, en utilisant <code>mkcls</code>:

<pre>
$ mkcls -m2 -psv-text.txt -c50 -Vsv-text.vcb.classes opt >& mkcls1.log
$ mkcls -m2 -pda-text.txt -c50 -Vda-text.vcb.classes opt >& mkcls1.log
</pre>

Maintenant utilisez GIZA++ pour fabriquer votre dictionnaire (<code>-S</code> est la langue source, <code>-T</code> est la langue cible, <code>-C</code> est le fichier texte aligné généré, et <code>-o</code> est le préfixe de fichier de sortie ):

<pre>
$ GIZA++ -S sv-text.vcb -T da-text.vcb -C sv-text_da-text.snt -p0 0.98 -o dictionnaire >& dictionnaire.log
</pre>

et attendez... Vous pouvez observer le log dans <code>dictionnaire.log</code>... mais l'entraînement est susceptible de prendre plus de 10 heures (au plus quelques jours), donc ayez autre-chose de planifié.

L'alignement final peut être trouvé dans le fichier <code>dictionnaire.A3.final</code>

== trainGIZA++.sh ==

:''Note: Ces changements s'appliquent seulement si vous ne prévoyez pas d'utiliser [[l'outil Moses]]''

Pour utiliser le script <code>trainGIZA++.sh</code>, vous avez besoin de faire quelques modifications avant de compiler :

Dans <code>Makefile</code> changez :
<pre>
CFLAGS_OPT = $(CFLAGS) -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE
</pre>

en :

<pre>
CFLAGS_OPT = $(CFLAGS) -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE
</pre>

et dans <code>trainGIZA++.sh</code> lui-même, changez :

<pre>
if( $# != 3 )
</pre>

en :

<pre>
if( $#argv != 3 )
</pre>

== Voir aussi ==

*[[Corpora]]
*[[L'outil ReTraTos]]

== Liens externes (en anglais) ==

* [http://guardiani.us/index.php/Moses_Language_Model_Howto_v2 Aide v2 pour le modèle de langue Moses]
* [http://www.statmt.org/moses/?n=FactoredTraining.HomePage statmt.org : entraînement factorisé]

[[Category:Documentation en français]]

← Older revision		Revision as of 08:43, 8 October 2014
Line 1:		Line 1:
			[[Using GIZA++\|In English]]

	'''GIZA++''' est un programme pour aligner les mots et les séquences de mots dans les corpus de phrases alignées. Si vous avez un corpus parallèle vous pouvez utiliser GIZA++ pour faire des dictionnaires bilingues pour Apertium (par exemple en utilisant [[l'outil ReTraTos]]).		'''GIZA++''' est un programme pour aligner les mots et les séquences de mots dans les corpus de phrases alignées. Si vous avez un corpus parallèle vous pouvez utiliser GIZA++ pour faire des dictionnaires bilingues pour Apertium (par exemple en utilisant [[l'outil ReTraTos]]).

Utiliser GIZA++ - Revision history

Bech: Lien page anglaise

Bech: Création page