<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://wiki.apertium.org/w/index.php?action=history&amp;feed=atom&amp;title=Utiliser_GIZA%2B%2B</id>
	<title>Utiliser GIZA++ - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://wiki.apertium.org/w/index.php?action=history&amp;feed=atom&amp;title=Utiliser_GIZA%2B%2B"/>
	<link rel="alternate" type="text/html" href="https://wiki.apertium.org/w/index.php?title=Utiliser_GIZA%2B%2B&amp;action=history"/>
	<updated>2026-05-11T03:44:36Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.34.1</generator>
	<entry>
		<id>https://wiki.apertium.org/w/index.php?title=Utiliser_GIZA%2B%2B&amp;diff=50609&amp;oldid=prev</id>
		<title>Bech: Lien page anglaise</title>
		<link rel="alternate" type="text/html" href="https://wiki.apertium.org/w/index.php?title=Utiliser_GIZA%2B%2B&amp;diff=50609&amp;oldid=prev"/>
		<updated>2014-10-08T08:43:07Z</updated>

		<summary type="html">&lt;p&gt;Lien page anglaise&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Revision as of 08:43, 8 October 2014&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 1:&lt;/td&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 1:&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-empty diff-side-deleted&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;div&gt;[[Using GIZA++|In English]]&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-empty diff-side-deleted&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;div&gt;&#039;&#039;&#039;GIZA++&#039;&#039;&#039; est un programme pour aligner les mots et les séquences de mots dans les corpus de phrases alignées. Si vous avez un corpus parallèle vous pouvez utiliser GIZA++ pour faire des dictionnaires bilingues pour Apertium (par exemple en utilisant [[l&#039;outil ReTraTos]]).&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;div&gt;&#039;&#039;&#039;GIZA++&#039;&#039;&#039; est un programme pour aligner les mots et les séquences de mots dans les corpus de phrases alignées. Si vous avez un corpus parallèle vous pouvez utiliser GIZA++ pour faire des dictionnaires bilingues pour Apertium (par exemple en utilisant [[l&#039;outil ReTraTos]]).&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Bech</name></author>
		
	</entry>
	<entry>
		<id>https://wiki.apertium.org/w/index.php?title=Utiliser_GIZA%2B%2B&amp;diff=32794&amp;oldid=prev</id>
		<title>Bech: Création page</title>
		<link rel="alternate" type="text/html" href="https://wiki.apertium.org/w/index.php?title=Utiliser_GIZA%2B%2B&amp;diff=32794&amp;oldid=prev"/>
		<updated>2012-03-18T19:34:49Z</updated>

		<summary type="html">&lt;p&gt;Création page&lt;/p&gt;
&lt;p&gt;&lt;b&gt;New page&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&amp;#039;&amp;#039;&amp;#039;GIZA++&amp;#039;&amp;#039;&amp;#039; est un programme pour aligner les mots et les séquences de mots dans les corpus de phrases alignées. Si vous avez un corpus parallèle vous pouvez utiliser GIZA++ pour faire des dictionnaires bilingues pour Apertium (par exemple en utilisant [[l&amp;#039;outil ReTraTos]]).&lt;br /&gt;
&lt;br /&gt;
== Compilation ==&lt;br /&gt;
&lt;br /&gt;
[http://code.google.com/p/giza-pp/ Téléchargez] et compilez GIZA++. &lt;br /&gt;
&lt;br /&gt;
Note: Si vous utilisez un système de fichiers qui ne distingue pas majuscules et minuscules (typiquement pour Mac OS) il vous faudra éditer le fichier &amp;lt;code&amp;gt;model3.cpp&amp;lt;/code&amp;gt; avant de le compiler, car il génère deux fichiers appelés &amp;lt;code&amp;gt;foo.a3.final&amp;lt;/code&amp;gt; et &amp;lt;code&amp;gt;foo.A3.final&amp;lt;/code&amp;gt;. Donc avant de compiler, changer par exemple les lignes 321--322 :&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
      alignfile = Prefix + &amp;quot;.A3.&amp;quot; + number ;&lt;br /&gt;
      test_alignfile = Prefix + &amp;quot;.tst.A3.&amp;quot; + number ;&lt;br /&gt;
&amp;lt;/pre&amp;gt; &lt;br /&gt;
en quelque-chose comme&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
      alignfile = Prefix + &amp;quot;.AA3.&amp;quot; + number ;&lt;br /&gt;
      test_alignfile = Prefix + &amp;quot;.tst.AA3.&amp;quot; + number ;&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Utilisation ==&lt;br /&gt;
&lt;br /&gt;
Téléchargez votre corpus, et convertissez-le avec une phrase par ligne.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Utilisez &amp;lt;code&amp;gt;plain2snt.out&amp;lt;/code&amp;gt; pour convertir votre corpus dans le format GIZA++ :&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
$ plain2snt.out sv-text.txt da-text.txt &lt;br /&gt;
w1:sv-text w2:da-text&lt;br /&gt;
sv-text -&amp;gt; sv-text&lt;br /&gt;
da-text -&amp;gt; da-text&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Vous pourriez obtenir quelques avertissements au sujet des phrases vides comme ceux-ci :&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
WARNING: filtered out empty sentence (source: sv-text.txt 23 target: da-text.txt 0).&lt;br /&gt;
WARNING: filtered out empty sentence (source: sv-text.txt 34 target: da-text.txt 0).&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Si c&amp;#039;est un gros corpus vous pourrez obtenir beaucoup d&amp;#039;avertissements... &amp;amp;mdash; si vous avez &amp;#039;&amp;#039;beaucoup&amp;#039;&amp;#039; d&amp;#039;avertissements, envisagez de changer le corpus.&lt;br /&gt;
&lt;br /&gt;
Après l&amp;#039;avoir fait, vous devriez avoir un couple de fichiers &amp;lt;code&amp;gt;.snt&amp;lt;/code&amp;gt; et un couple de fichiers &amp;lt;code&amp;gt;.vcb&amp;lt;/code&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
Ensuite il vous faut générer les classes de mots, en utilisant &amp;lt;code&amp;gt;mkcls&amp;lt;/code&amp;gt;:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
$ mkcls -m2 -psv-text.txt -c50 -Vsv-text.vcb.classes opt &amp;gt;&amp;amp; mkcls1.log&lt;br /&gt;
$ mkcls -m2 -pda-text.txt -c50 -Vda-text.vcb.classes opt &amp;gt;&amp;amp; mkcls1.log&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Maintenant utilisez GIZA++ pour fabriquer votre dictionnaire (&amp;lt;code&amp;gt;-S&amp;lt;/code&amp;gt; est la langue source, &amp;lt;code&amp;gt;-T&amp;lt;/code&amp;gt; est la langue cible, &amp;lt;code&amp;gt;-C&amp;lt;/code&amp;gt; est le fichier texte aligné généré, et &amp;lt;code&amp;gt;-o&amp;lt;/code&amp;gt; est le préfixe de fichier de sortie ):&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
$ GIZA++ -S sv-text.vcb -T da-text.vcb -C sv-text_da-text.snt -p0 0.98 -o dictionnaire &amp;gt;&amp;amp; dictionnaire.log&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
et attendez... Vous pouvez observer le log dans &amp;lt;code&amp;gt;dictionnaire.log&amp;lt;/code&amp;gt;... mais l&amp;#039;entraînement est susceptible de prendre plus de 10 heures (au plus quelques jours), donc ayez autre-chose de planifié. &lt;br /&gt;
&lt;br /&gt;
L&amp;#039;alignement final peut être trouvé dans le fichier &amp;lt;code&amp;gt;dictionnaire.A3.final&amp;lt;/code&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== trainGIZA++.sh ==&lt;br /&gt;
&lt;br /&gt;
:&amp;#039;&amp;#039;Note: Ces changements s&amp;#039;appliquent seulement si vous ne prévoyez pas d&amp;#039;utiliser [[l&amp;#039;outil Moses]]&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
Pour utiliser le script &amp;lt;code&amp;gt;trainGIZA++.sh&amp;lt;/code&amp;gt;, vous avez besoin de faire quelques modifications avant de compiler :&lt;br /&gt;
&lt;br /&gt;
Dans &amp;lt;code&amp;gt;Makefile&amp;lt;/code&amp;gt; changez :&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
CFLAGS_OPT = $(CFLAGS) -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
en :&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
CFLAGS_OPT = $(CFLAGS) -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
et dans &amp;lt;code&amp;gt;trainGIZA++.sh&amp;lt;/code&amp;gt; lui-même, changez :&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
if( $# != 3 )&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
en :&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
if( $#argv != 3 )&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Voir aussi ==&lt;br /&gt;
&lt;br /&gt;
*[[Corpora]]&lt;br /&gt;
*[[L&amp;#039;outil ReTraTos]]&lt;br /&gt;
&lt;br /&gt;
== Liens externes (en anglais) ==&lt;br /&gt;
&lt;br /&gt;
* [http://guardiani.us/index.php/Moses_Language_Model_Howto_v2 Aide v2 pour le modèle de langue Moses]&lt;br /&gt;
* [http://www.statmt.org/moses/?n=FactoredTraining.HomePage statmt.org : entraînement factorisé]&lt;br /&gt;
&lt;br /&gt;
[[Category:Documentation en français]]&lt;/div&gt;</summary>
		<author><name>Bech</name></author>
		
	</entry>
</feed>